爬虫实践基于 webmagic ,提供一个例子用于层次化主题帖子和二级帖子及内容。
webmagic 介绍 https://www.oschina.net/p/webmagic
5 分钟实现爬 oschina 帖子 https://git.oschina.net/ihuotui/webmagic-sample
目标
1 遍历主题列表
2 读取主题详情页,获取目标文件或者图片或者内容
3 (可选)读取主题详情页下一页,获取目标文件或者图片
4 (可选)下载目标文件
说明,使用 redis 作为进度保存。
基于以上目标
1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。
2 使用 DownloadUrlFileThread 来下载具体文件。
3 测试方法运行 test 目录的 AbstractPageTest
webmagic 介绍 https://www.oschina.net/p/webmagic
5 分钟实现爬 oschina 帖子 https://git.oschina.net/ihuotui/webmagic-sample
目标
1 遍历主题列表
2 读取主题详情页,获取目标文件或者图片或者内容
3 (可选)读取主题详情页下一页,获取目标文件或者图片
4 (可选)下载目标文件
说明,使用 redis 作为进度保存。
基于以上目标
1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。
2 使用 DownloadUrlFileThread 来下载具体文件。
3 测试方法运行 test 目录的 AbstractPageTest