This topic created in 5645 days ago, the information mentioned may be changed or developed.
京东的商品价格是用js显示的,新蛋是用图片。
问题1. 这些网站有没有开放接口?我没能找到呀。豆瓣是通过合作取得的数据吧。
问题2. 用PHP的话,怎样可以高效得从页面提取出需要的数据。我目前用正则匹配,速度实在难以接受。
这里的高手愿意帮忙给个提示吗?谢谢!
9 replies • 1970-01-01 08:00:00 +08:00
 |
|
1
won Dec 4, 2010 via iPhone
html采集吧,最通用的方法,管他什么api
|
 |
|
2
yoyicue Dec 4, 2010
这种脏活累活 还是python高效啊 ~
|
 |
|
3
daqing Dec 4, 2010
从页面提取数据,用DOM啊。。最好用个支持CSS选择器的DOM库,会很爽的。
Ruby的话,推荐Nokogiri
|
 |
|
4
zhendi Dec 4, 2010
1. 没有开放接口,你可以跟他们谈,或者跟我们一样自己写个识别系统,只是数字识别,不是很难。
|
 |
|
5
laiwei Dec 4, 2010
没有api 总归很被动 当然,如果我们的提取 设别做的足够nb的话 那就变为主动了~
建议立足于提取
|
 |
|
6
aligo Dec 4, 2010
。。。楼主是谁?想做什么?
|
 |
|
7
ong Dec 4, 2010
@ daqing nokogiri太牛叉了,“锯”这个项目名太传神了
|
 |
|
8
est Dec 4, 2010
|