V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dsg001
V2EX  ›  Python

单 IP 如何最大限度爬取 GG 搜索结果?

  •  
  •   dsg001 · Aug 27, 2016 · 3647 views
    This topic created in 3542 days ago, the information mentioned may be changed or developed.
    换 IP 正在使用,但效率很烂,所以才想提高单 IP 的获取数量

    GG 会根据不同的 UA 返回不同样式的数据,尝试 PC 、移动端的 UA 也不咋地
    Supplement 1  ·  Aug 27, 2016
    目前的方案,服务器绑定 N 个 IP ,不同 IP 出口设置随机时间间隔, ua 、 ref 全部随机,验证码基本 200+左右出现一次
    6 replies    2016-08-27 22:00:13 +08:00
    em70
        1
    em70  
       Aug 27, 2016
    要论爬虫技术,这个世界谁有 google 厉害,任何小伎俩都是班门弄斧,别折腾了
    tumb8r
        2
    tumb8r  
       Aug 27, 2016 via iPhone
    @em70 说的很有道理🌚敢爬世界上最大的爬虫,加油
    lbp0200
        3
    lbp0200  
       Aug 27, 2016 via Android
    主要是验证码
    lbp0200
        4
    lbp0200  
       Aug 27, 2016 via Android
    楼主百度的?不用自己爬了,好办法
    dsg001
        5
    dsg001  
    OP
       Aug 27, 2016
    @lbp0200 用来跟踪网站排名,方便以后分析的。 另外百度应该有足够的 IP 进行轮询吧
    Mart
        6
    Mart  
       Aug 27, 2016
    @dsg001 百度有自己的标示吧?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3167 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 03:04 · PVG 11:04 · LAX 20:04 · JFK 23:04
    ♥ Do have faith in what you're doing.