你们都用什么语言来做爬虫的,有什么好的介绍。。。
1
for4 Mar 12, 2013 Python
+requests +lxml +celery |
4
xieren58 Mar 12, 2013
Node + jquery
|
7
shinwood Mar 12, 2013 |
8
greatghoul Mar 12, 2013
@shinwood 这个用起来的确骚爽。
|
9
colincat Mar 12, 2013 via Android
java
|
10
for4 Mar 12, 2013 @liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 |
11
wingoo Mar 12, 2013
scrapy
|
12
twm Mar 12, 2013
JAVA PHP
|
13
dulao5 Mar 12, 2013
PHP + curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 |
14
xjay Mar 12, 2013
scrapy
不解释 |
15
PrideChung Mar 12, 2013
ruby+norogiri
http://nokogiri.org/ |
16
amxku Mar 12, 2013
Python
+curl +celery |
17
1up Mar 12, 2013
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
|
18
cloverstd Mar 12, 2013
Python: urllib, urllib2, re
|
19
run2 Mar 12, 2013
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); |
20
chuck911 Mar 12, 2013
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 |
23
Linxing Mar 13, 2013 via Android
python beautifulsoup urlib爬文章
|
25
crazybubble Mar 13, 2013 @atom 用regex来做html parsing不推荐,我推荐用jsoup。
|
27
workaholic Mar 13, 2013 php+snoopy
|
28
akalanala Mar 13, 2013
@crazybubble 同推荐.
|
29
binux Mar 13, 2013
python + tornado AsyncHTTPClient + PyQuery
|
30
sonicwu Mar 13, 2013
Java
+ jsoup Python + Beautiful Soup + urllib + lxml |
31
dingyaguang117 Mar 13, 2013
Python
+ Beautiful Soup + lxml + Scrapy |
32
atom Mar 13, 2013
|
33
zoran Mar 14, 2013
Java 可以试试这个 https://github.com/zhuoran/crawler4j
|
34
yangxin0 Mar 14, 2013
看过别人用C
|
35
Xrong Mar 14, 2013
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
|
36
zdwalter Mar 15, 2013
phantomjs, casperjs
|
37
zhouquanbest Mar 16, 2013
python + pyquery 是个好东西
会jquery就能写 |
38
nojt7Zm Mar 17, 2013
php
|
39
kingwkb Mar 17, 2013
|
40
gameending Mar 17, 2013
python跟java都写过,python很简洁,java的话我觉得也还不错
|
41
lbj96347 Mar 17, 2013
node.js or python. :-)
|
42
kdepp Jul 7, 2013
node + cheerio
|
43
briefcopy Aug 18, 2014
用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector
|
44
cangbaotu May 24, 2016
http://www.shenjianshou.cn/ 神箭手云爬虫
|
45
ssllff123 Oct 10, 2016
|
46
billyellow Nov 16, 2016 推荐试下这个 http://www.zaoshu.io
|
47
GrahamCloud Feb 23, 2017
@billyellow 好的!
|
48
jiankaikey Nov 30, 2018
右键->另存为
|