有些论坛的内容是需要回复,或者支付一定的论坛的什么积分才能看到。但是在 Google 直接搜索这些隐藏的内容,发现 Google 已经收录了隐藏的内容,很好奇 Google 是怎么做到的。
难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
难道是这些论坛框架有某些漏洞,通过其他入口可以直接查看隐藏内容吗
1
itskingname Feb 18, 2021
有些论坛使用的这种隐藏内容的方式叫做 Paywall,中文名叫做付费墙。但是内容实际上已经在源代码里面了,只是用 js 把内容隐藏起来了而已。Google 可以绕过部分简陋的付费墙,
|
2
AngryPanda Feb 18, 2021 不负责任猜想:有权限的用户使用了 chrome 浏览器
|
3
littlelooloo Feb 18, 2021 via Android 你看到的是前段,google 的蜘蛛抓得是后端
|
4
momo1999 Feb 18, 2021
有可能是还没设置权限就被抓了。
|
5
docx Feb 18, 2021
已知的两种可能:
1. 在源码里,假隐藏,打开 F12 找找 2. 针对 Google Bot 开放检索权限 |
6
docx Feb 18, 2021
补充一条
3. 还没设置权限时已被抓取 |
7
superrichman Feb 18, 2021 via iPhone
可能做了 seo 优化,也可能就是漏洞
|
8
westoy Feb 18, 2021
网站针对性 SEO 的概率大一点, 面对 google bot 的 UA 和 IP 段放开吐数据
|
9
ruixue Feb 18, 2021 大概率是针对 Google 做了 SEO,允许 Googlebot 爬
很多新闻网站的付费墙,不光允许 Googlebot 爬,从 Google 搜索结果点击进去就可以阅读全文,而手动访问则会触发付费墙要求登录订阅 甚至 v2 目前用的 Cloudflare 的五秒盾,从 Google 搜索结果中点进来就不会触发,虽然部分资源无法加载但是不影响文字内容的获取 |
10
coolcatha OP @itskingname
@dzyou2007 我测试了一个这样的网站,请求隐藏内容的时候,带上我的 cookie,购买后的才能看到,没有购买的就看不到。因此应该不是在前端简单隐藏了。 @ruixue 我感觉大概率是这样的。但是网站如何判断是 Google 爬虫呢?除非是主动提交内容,否则服务器很难查看是不是 Google 的爬虫吧。 |
13
silymore Feb 18, 2021 via iPhone
@AngryPanda 记得 360 浏览器这么干过
|
14
coolcatha OP |
15
morethansean Feb 18, 2021
|
16
coolcatha OP @morethansean 非常感谢。如果是这样,我也没办法去验证了
|
17
ruixue Feb 18, 2021
|
18
billlee Feb 18, 2021
|
19
ESP Feb 18, 2021
这里还真涉及到 discuz 的两个漏洞
|
21
Soar360 Feb 18, 2021
判断 IP 是不是谷歌爬虫,可以看看 IP 的 rDNS 。
|