如果每次浏览器和服务器的通信都有一个token,而我们又无法看懂到底是什么,那么我们的爬虫是不是就无法爬取页面信息了啊?
1
Esay Apr 2, 2014 是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。 |
2
asing Apr 2, 2014
|
3
jsonline Apr 2, 2014 via Android
天天有人研究爬虫
|
4
binux Apr 2, 2014
我们看到页面是一个获得信息,消除信息不确定性的过程,爬虫也是
|
5
dorentus Apr 2, 2014
理论上么,爬虫和浏览器一样都是 user agent,自然能做的东西都是一样的……
|
6
cxh116 Apr 2, 2014
像某些小说站,内容都生成图片了,这个应该是无法索引
|
8
xh1994 Apr 3, 2014
不能!那些通过 ajax 加载内容的页面你怎么爬?而且现在这样的页面越来越多了!
|