yjsp1919
V2EX  ›  互联网

为什么反爬虫的标准越来越严了

  •  
  •   yjsp1919 · Apr 24, 2024 · 4787 views
    This topic created in 750 days ago, the information mentioned may be changed or developed.

    我设置的比真人浏览还慢 5 秒 10 秒延迟那种 还是给我跳 cloudflare 到底为什么要反爬 我比真人慢等于是降低了服务器负担吧?

    21 replies    2024-04-25 14:48:56 +08:00
    meshell
        1
    meshell  
       Apr 24, 2024
    你喜欢内容农场吗?
    NessajCN
        2
    NessajCN  
       Apr 24, 2024   ❤️ 3
    ....你认真的吗
    不爬才是降低服务器负担啊兄弟
    didi0luc
        3
    didi0luc  
       Apr 24, 2024
    代理 ip 质量比任何反反爬手段都要重要
    Masterlxj
        4
    Masterlxj  
       Apr 24, 2024
    访问频率只是反爬策略中的 1/n
    coderluan
        5
    coderluan  
       Apr 24, 2024
    因为发现爬不了就去一页一页从浏览器复制的傻子其实非常少......
    wojiugaiming
        6
    wojiugaiming  
       Apr 24, 2024 via Android
    特别讨厌五秒盾,严重影响用户体检,当然的我不爬别人网站
    yjsp1919
        7
    yjsp1919  
    OP
       Apr 24, 2024
    @NessajCN 假如我人工复制要十分钟
    我设置的爬虫可能要一小时
    这不是降低了单位时间内负载吗?
    Bantes
        8
    Bantes  
       Apr 24, 2024
    1. 干净的代理 IP
    2. TLS/JA3 指纹
    zephyru
        9
    zephyru  
       Apr 24, 2024
    如果只是收集数据(一次性的),这种可以直接在浏览器里写脚本,不少插件干这事的...
    msg7086
        10
    msg7086  
       Apr 24, 2024
    如果你是建站并复制其他网站数据的话,复制他人有版权的内容是违法行为。
    反爬一般是用来阻止违法行为的。
    BeiChuanAlex
        11
    BeiChuanAlex  
       Apr 24, 2024
    这不是很正常吗,爬虫与反爬,天生就是矛与盾
    nothingistrue
        12
    nothingistrue  
       Apr 24, 2024
    你不爬,服务器负载更低。
    deorth
        13
    deorth  
       Apr 24, 2024 via Android
    是,主要降低了脑子的负担
    nodejsexpress
        14
    nodejsexpress  
       Apr 24, 2024
    cf ,akamai 这些不仅仅看你爬取速度,除了浏览器指纹,也有行为检测。
    Shanky
        15
    Shanky  
       Apr 24, 2024
    @zephyru #9 🐶 你怎么知道我拿油猴脚本去爬 18+的漫画的?
    timjunk
        16
    timjunk  
       Apr 24, 2024
    cloudflare 挡住的负担在 cloudflare 那边,网站的服务器不就减负了吗
    whoosy
        17
    whoosy  
       Apr 24, 2024
    kpi 罢了
    opengps
        18
    opengps  
       Apr 24, 2024
    除了搜索引擎,那个站长喜欢不带来流量价值的爬虫?
    ZnductR0MjHvjRQ3
        19
    ZnductR0MjHvjRQ3  
       Apr 24, 2024
    @yjsp1919 你只考虑降低了负载 但是你有想过没 人家欢迎正常玩家来访问哪怕正常玩家再快都行 但是你是爬虫! no !!!

    这才是问题 ,所以 不是慢就是正常人。。。。
    yjsp1919
        20
    yjsp1919  
    OP
       Apr 25, 2024
    @zephyru 直接用 JS 吗?
    zephyru
        21
    zephyru  
       Apr 25, 2024
    @yjsp1919
    是的,直接写 js ,最简单的莫过于在控制台里自动翻页,拦截请求/直接解析 dom ,收集的数据直接生成文件下载下来
    经常做这种事情可以写成油猴脚本,不想自己写代码可以去找 chrome 商店里的插件
    其它,无头浏览器或者各种全自动测试框架也可以做这些事情,不过那就杀鸡用牛刀的感觉了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3031 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 85ms · UTC 15:18 · PVG 23:18 · LAX 08:18 · JFK 11:18
    ♥ Do have faith in what you're doing.