zzm88104
V2EX  ›  问与答

即使不断变换 ip,一定次数后还是被爬虫检测,应该从哪里排查?(pyppeteer)

  •  
  •   zzm88104 · Oct 18, 2021 · 2154 views
    This topic created in 1679 days ago, the information mentioned may be changed or developed.

    用的是 pyppeteer 框架,测试的是美亚网站,每分钟访问一次,大概 1-5 分钟换一次 ip,20 分钟左右还是会出现验证码页面

    6 replies    2021-10-18 16:44:15 +08:00
    miao666
        1
    miao666  
       Oct 18, 2021   ❤️ 1
    参考谷歌的机器人验证码
    网站会收集你在网站里的鼠标滑行轨迹,点击动作频率,键盘动作等信息
    从而判断你是否为机器人
    xiaoqiao24
        2
    xiaoqiao24  
       Oct 18, 2021   ❤️ 1
    1. ip 的问题,有可能是 ip 在目标服务器已有黑名单记录,导致不能长时间爬取。建议用多个代理商搭建代理池。
    2. 请求参数里面是否包含了有过期失效的参数,例如鼠标轨迹,点击检测等等数据。
    zzm88104
        3
    zzm88104  
    OP
       Oct 18, 2021
    @miao666 确实是完全没有模拟相关的操作,不过他最开始的几十次并不会触发机器人检测。不知道他是怎样把不同 ip 的请求关联起来的?
    zzm88104
        4
    zzm88104  
    OP
       Oct 18, 2021
    @xiaoqiao24 好的,我去检查下请求的参数
    qq316107934
        5
    qq316107934  
       Oct 18, 2021
    @zzm88104 每次请求前 cookies 是空的吗? local storage 一类的确定没被持久化下来数据吗?
    ByteMind
        6
    ByteMind  
       Oct 18, 2021
    cookie,指纹信息,data 参数,这些都会变化
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2959 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 08:58 · PVG 16:58 · LAX 01:58 · JFK 04:58
    ♥ Do have faith in what you're doing.