h8743
V2EX  ›  Java

现在 Java 爬虫有啥推荐的么? webmagic 很久没维护了

  •  
  •   h8743 · Apr 28, 2019 · 5824 views
    This topic created in 2581 days ago, the information mentioned may be changed or developed.
    15 replies    2019-05-05 02:11:17 +08:00
    FightingX
        1
    FightingX  
       Apr 28, 2019
    我一般基于 httpclient 自己写下载器
    h8743
        2
    h8743  
    OP
       Apr 28, 2019
    @FightingX 重复造轮子不舒服
    xioxu
        3
    xioxu  
       Apr 28, 2019
    虽然平时我也写 java, 但爬虫我还是喜欢用 python 的 scrapy, 简单好用, 爬虫常用场景都有内在支持。
    yestodayHadRain
        5
    yestodayHadRain  
       Apr 28, 2019
    Gecco 了解一下,我也是这几天刚接触的,感觉还是挺方便的
    swuzjb
        6
    swuzjb  
       Apr 28, 2019
    Jsoup
    canbingzt
        7
    canbingzt  
       Apr 28, 2019
    这种框架如果没有遇到 bug 的话,更新不更新应该是无所谓的吧,能满足需求就行了啊
    quadrapop
        8
    quadrapop  
       Apr 28, 2019
    python 写爬虫就行,反正都是保存到数据库
    java 一般我们用 Jsoup,还可以
    uminokoe
        9
    uminokoe  
       Apr 28, 2019
    歪个楼,遇到需要使用 selenium 的情况用什么框架好呢?
    xyooyx
        10
    xyooyx  
       Apr 29, 2019
    jdk11 开始内置 httpclient,可以配置 cookieMnager 自动管理 Cookie
    zhangjinglongi
        11
    zhangjinglongi  
       Apr 29, 2019
    dongliu 的 reuqests 也挺好用的,模仿的 python 的
    ala2008
        12
    ala2008  
       Apr 29, 2019
    一般使用就可以了吧
    xinQing
        13
    xinQing  
       Apr 29, 2019
    这个 webmagic 很成熟了啊,源码也比较简单,推荐使用~
    h8743
        14
    h8743  
    OP
       Apr 30, 2019
    @xinQing get
    wiix
        15
    wiix  
       May 5, 2019
    手撸一个
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1077 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 23:19 · PVG 07:19 · LAX 16:19 · JFK 19:19
    ♥ Do have faith in what you're doing.