简单描述一下场景:
现在有200w左右的ip,任务是把这写ip对应的web服务的首页抓取下来(大概有1/3的ip没有web服务)
我用gevent和urllib2简单写了个爬虫,在开发机用40wip做测试,耗时2021s,开发机下载顶峰速度为4m/s ,上传速度为600k/s,测试爬虫的时候,爬虫发出的请求速度在100-300k之间,下载数据速度在300k-1200k之间,cpu没占满,内存也没满。
请问大家,如何提升爬虫带宽的占用率?
现在有200w左右的ip,任务是把这写ip对应的web服务的首页抓取下来(大概有1/3的ip没有web服务)
我用gevent和urllib2简单写了个爬虫,在开发机用40wip做测试,耗时2021s,开发机下载顶峰速度为4m/s ,上传速度为600k/s,测试爬虫的时候,爬虫发出的请求速度在100-300k之间,下载数据速度在300k-1200k之间,cpu没占满,内存也没满。
请问大家,如何提升爬虫带宽的占用率?