如何隐藏页面的文字来避免爬虫？

This topic created in 3445 days ago, the information mentioned may be changed or developed.

原创文学网站，同行基本是把文章转换为图片后显示，但这样的问题是转换时消耗服务器资源与样式调整比较麻烦，但好处是不仅可以防止爬虫同时还可以防止用户直接复制文章。

如果在不考虑用户直接复制文章，仅做到加密 /隐藏文字来防止页面源码爬虫的话，有什么实现方法呢？

我知道理论与技术上这不可能做到完全避免内容被针对性的复制与爬取，但只要做到能杜绝大部分的通用爬虫与没有 Javascript 引擎的爬虫就可以了。

希望看到各位的奇技淫巧与思维的火花。

爬虫

复制

防止

爬取

26 replies • 2017-01-21 19:55:12 +08:00

ericls

Jan 21, 2017 via iPhone

用错综复杂的 table 文字的顺序和 html 里面的顺序不一样

nikoo

Jan 21, 2017

@ericls 谢谢，什么叫“错综复杂的 table 文字的顺序”？是纯 HTML 吗？如何实现？

imn1

Jan 21, 2017

其实就一个理念，让人阅读容易，让机器阅读困难（或者经过机器后，让其他人阅读困难）
例如，全部标点换成图片

uucloud

Jan 21, 2017

每天随机改变一下 dom 结构和文字标签的属性名

sheldor

Jan 21, 2017 via iPhone

因为还要防止被人随意复制，所以个人认为无解

livelazily

Jan 21, 2017

@nikoo 每一行的文字都放到一个空白的不带额外属性的的 div 里,每行文字都是乱序, 加载完成后用 js 调整为正确的顺序

des

Jan 21, 2017 via Android

自定义字体，隔一段时间去换。
多种方式换着来。

总感觉会有人来打我😂

kchum

Jan 21, 2017 via iPad

还可以截图 OCR 啊，防不胜防

xuan880

Jan 21, 2017 via Android

现在盗版都是自动抓取，自动 OCR ，只要作品阅读量大就无解，除非是那种没人去的小站，盗版都没人盗。

nailuoGG

Jan 21, 2017

爬网站时碰到以下这些情况会比较想吐槽：

- 关键元素没有 class 、 id
- 有位置随机的空 div
- 全部 table 或全部用 div

nailuoGG

Jan 21, 2017

记得有个方法是：网站载入前通过 js 进行运算，用算出来的 key 来获取正文。

主要思路是提高爬取成本，但是这个方法对有大量数据的站更有效。

yidinghe

PRO

Jan 21, 2017 via Android

用 canvas 写文字

Yourshell

Jan 21, 2017 via Android

让新手来写页面

gouchaoer

Jan 21, 2017 via Android

作为全职爬虫工程师，我表示上面的都不靠谱。。。。

第一，转化成图片是个很不错的方法， cpu 不是问题，你把图片缓存起来就 ok 了。。然而对 seo 和移动端不那么友好。。。。至于爬虫要 ocr ，这个也要付出相应的成本

第二，根据账户行为控制，如果注册用手机注册，那么封了一个爬虫账号后就等于封了一个手机，爬的成本立刻上升。然后由于市场上有几 kw 个黑市手机号，能搞到这些手机号注册的业余爬虫码农做不到。那么基于行为怎么搞呢？很简单，一个用户的翻页速度和跨作品阅读都是很好的特征，写一些代码就能判断出爬虫，封的时候要慢慢封，不要让人猜出你封的策略。。。。

当然了，我个人倾向第二个方案。。。。你如果想要 seo 的话，可以每段做成一个 html ，路径用 hash ，让人猜不出路径规则无法遍历，这样搜索引擎又能索引，又能放爬虫。