Kaiyuan
V2EX  ›  问与答

后端把文字以 Unicode 输出,然后在通过 JavaScript 显示能不能防止一般爬虫?

  •  
  •   Kaiyuan · Nov 10, 2014 · 2744 views
    This topic created in 4214 days ago, the information mentioned may be changed or developed.

    例如我想显示的文字是 「一个友好的社区」
    输出的字符串是 \u4e00\u4e2a\u53cb\u597d\u7684\u793e\u533a 然后是通过 js

    document.write('\u4e00\u4e2a\u53cb\u597d\u7684\u793e\u533a');
    

    如果可以一些相对敏感的字符是不是可以这样另类的「加密」?

    当然,一些爬虫会自动转换就另一回事。

    4 replies    2014-11-10 09:27:32 +08:00
    hjc4869
        1
    hjc4869  
       Nov 10, 2014   ❤️ 1
    防止爬虫直接用ember.js之类的web app框架不就行了……
    HTML里不出现数据,全部用js写上去,思路是一样的。
    这样的话爬虫需要模拟浏览器执行js,成本就超大了。
    abelyao
        2
    abelyao  
       Nov 10, 2014
    @hjc4869 于是一般我就找出 load js 的规律,然后直接爬 ajax 的地址了…
    楼主那个还指望加密啊… 任何一个语言都能 decode 回来啊
    Kaiyuan
        3
    Kaiyuan  
    OP
       Nov 10, 2014
    @abelyao 我想法初衷不是全文以 Unicode 输出,是针对电邮地址和手机号码这类字符啊。
    abelyao
        4
    abelyao  
       Nov 10, 2014
    @Kaiyuan 应该也是一个思路,可以试试看,不过 email 的爬虫应该早就能识别出这些了吧,连 # 这些隐晦替代符号都能抓了…
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3213 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 00:19 · PVG 08:19 · LAX 17:19 · JFK 20:19
    ♥ Do have faith in what you're doing.