求方法,求思路。
需要抓取全,只要hao123网站上的,不要爬出去了。
需要抓取全,只要hao123网站上的,不要爬出去了。
1
wang2191195 Dec 14, 2012
scrapy 你值得拥有
|
2
enj0y Dec 14, 2012
使用云的理念,用访客的资源来爬行,节约服务器资源。。
哈哈,估计这样的网站没有人敢访问。 |
3
kenneth OP |
4
flyingkid Dec 14, 2012
设置一个规则 http://*.hao123.com/*
其他的全部调过。 |
6
zuroc Dec 14, 2012
|
7
zuroc Dec 14, 2012 |
8
momou Dec 14, 2012
|
10
tioover Dec 14, 2012
curl拉下来
然后找出所有<a> |
11
dreampuf Dec 14, 2012
wget -e robots=off -r -T 3 --domains=hao123.com www.hao123.com
for i in `find . -iname *.html`; do cat $i | grep "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done |
12
greatghoul Dec 14, 2012
wget 就搞定了。
|
13
glsee Dec 14, 2012
|
14
barbery Dec 15, 2012
右键网页另存为。。。。用正则提取。。。。
|
15
im924106179 Dec 15, 2012
100rmb包搞定
|
16
kenneth OP @im924106179 你能搞定就上代码,100rmb我付你。
|
17
xjay Dec 16, 2012
scrapy 你值得拥有,呵呵。
用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。 |
18
ccdjh Dec 16, 2012
爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。
你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware 把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同 |
19
xieranmaya Dec 17, 2012
这样行不行,用jQuery
$("a").each(function(){ $("<div></div>").load(this.href).appendTo(document.body); }); |
21
kenneth OP |
22
bigdude Dec 19, 2012
wget 啊
|
23
IFoon Dec 19, 2012
用采集工具啊。。
www.sensite.cn |
24
adyizhan Dec 19, 2012
@im924106179 怎么联系。
|
25
ADIVILOrz Dec 19, 2012
|
28
secretworry Dec 20, 2012
@kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。
其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND) |
29
aksoft Dec 21, 2012
都是NB人,学习下..
|