• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ihuotui
V2EX  ›  程序员

爬虫实践基于 webmagic,目标用 5 分钟就可以爬一个网站(你懂的)

  •  
  •   ihuotui · Jan 12, 2017 · 5228 views
    This topic created in 3417 days ago, the information mentioned may be changed or developed.
    爬虫实践基于 webmagic ,提供一个例子用于层次化主题帖子和二级帖子及内容。

    webmagic 介绍 https://www.oschina.net/p/webmagic

    5 分钟实现爬 oschina 帖子 https://git.oschina.net/ihuotui/webmagic-sample

    目标

    1 遍历主题列表

    2 读取主题详情页,获取目标文件或者图片或者内容

    3 (可选)读取主题详情页下一页,获取目标文件或者图片

    4 (可选)下载目标文件

    说明,使用 redis 作为进度保存。

    基于以上目标

    1 写了一个抽象类 AbstractPageAndSubPageProcessor 作为遍历抽象,子类集成后,实现一些逻辑就可以运行。

    2 使用 DownloadUrlFileThread 来下载具体文件。

    3 测试方法运行 test 目录的 AbstractPageTest
    Supplement 1  ·  Jan 12, 2017
    不过觉得框架的处理页面只能单个 processor ,应该设计成责任链,然后可以根据不同的页面写不同的 processor 。
    9 replies    2017-01-13 00:49:42 +08:00
    spice630
        1
    spice630  
       Jan 12, 2017
    臃肿的 java 推荐你学下 golang
    https://github.com/songtianyi/laosj
    ihuotui
        2
    ihuotui  
    OP
       Jan 12, 2017
    @spice630 差不多,工作主要语言是 java 所以只能用 java 写了。
    jurant
        3
    jurant  
       Jan 12, 2017
    唉 java 看一半就没学了.
    luban
        4
    luban  
       Jan 12, 2017
    webmagic 设计还是很好的
    zgqq
        5
    zgqq  
       Jan 12, 2017
    @spice630 写过一个跟你这个很像的,也是抓黄图的,也是用 golang 写的,然后又跳坑了,用回 java
    spice630
        6
    spice630  
       Jan 12, 2017
    @zgqq 为啥啊兄弟,我那个是轻量级的,还有重量级的幽灵蛛,不过我没用过 不好评价。
    golang 好维护。
    zingl
        7
    zingl  
       Jan 12, 2017
    5 分钟可以开始爬一个网站
    zgqq
        8
    zgqq  
       Jan 13, 2017 via Android
    @spice630 国内还是 java 用得多,另外 golang 的异常处理让我感觉不习惯
    ihuotui
        9
    ihuotui  
    OP
       Jan 13, 2017 via iPhone
    @zingl 嘿嘿
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1070 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 23:17 · PVG 07:17 · LAX 16:17 · JFK 19:17
    ♥ Do have faith in what you're doing.