写好了爬虫,准备爬一些数据,但是IP只有一个,肯定会被封。
大家平时都是怎么处理代理问题的?
目前准备抓免费代理,30分钟检测一次有效性
然后随机选代理
大家有没有什么好办法?
大家平时都是怎么处理代理问题的?
目前准备抓免费代理,30分钟检测一次有效性
然后随机选代理
大家有没有什么好办法?
1
sohoer May 24, 2014
http://121.199.38.28/
目前使用这个,也不是很稳定,准备用ADSL拔号换IP 也想知道是否有更好的方式 |
2
hydrazt May 24, 2014
直接使用tor吧,每1min换一次ip
|
4
Livid MOD PRO 为什么互联网上会有这么多开放的代理服务器呢?
|
5
mengli May 24, 2014
淘宝。很便宜。
|
7
maemual May 24, 2014
|
8
binux May 24, 2014 之前直接用 squid,它会屏蔽失效的代理,使用速度更快的代理,自动轮训,自动重试转发,还能设置规则。爬虫只要设置同一个出口就自动使用代理了。
建议使用这样的转发方式,更容易控制,可重用性高,也不需要检测死活,在进行代理请求的时候同时就进行了。 |
9
mengskysama May 24, 2014
我记得有个分支版本的GAE是自动换账号的,是不是可以利用
|
11
binux May 24, 2014
@hadoop """cache_peer %s parent %s 0 no-query weighted-round-robin weight=%s connect-fail-limit=2 allow-miss max-conn=5""" % (host, port, weight)
|
12
Lucups May 24, 2014
万能的淘宝
|
13
ThomasHuang Nov 19, 2014
@binux 不好意思,我没怎么用过Squid,不怎么看懂您的意思。Squid怎么才能做到动态添加代理池地址,并且自动调整权重?
您的意思是动态生成配置文件,然后重启吗? 最近我自己用gevent和pycurl自己实现了一个简单的代理,主要是代理池里,除了http代理,还有https,socks4,socks5,请问你所说的方式支持https和socks协议吗?我查看Squid的文档,上面来看,似乎cache_peer只能设置http代理是吗? |
14
binux Nov 19, 2014 @ThomasHuang 就是重启。。只用过http,不会动态调权,只会自动重试。
|
16
dgivan Sep 18, 2016
|
18
qsnow6 Feb 7, 2017
|
19
rocketman13 Nov 2, 2018
@binux 你好,我的 squid 正向代理池 总是使用不了,不知道什么原因,有空帮忙看看配置文件吗?
|