• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Brucepac
V2EX  ›  程序员

有没有一种爬虫服务,只需要我指定网站和规则,就可以定时爬数据,并且可以提供我指定格式的 json api 的

  •  
  •   Brucepac · Mar 3, 2018 · 10559 views
    This topic created in 3003 days ago, the information mentioned may be changed or developed.

    如题,希望各路大佬知道,告知一下。

    PS:本人比较喜欢看自然科学相关的文章,经常看环球科学的网站,加上我是做 iOS 开发的,所以我想用 swift 做一个 app 方便看文章。

    本来是想自己做全栈的,包括设计和前后端(前后端全用 swift),但是由于我对爬虫方面的知识不太了解,我想先完成 app,后期再用 Perfect 自己学习写爬虫程序。所以要是有现成的爬虫并且是开源的就最好了😄。

    46 replies    2018-12-15 15:04:50 +08:00
    loading
        1
    loading  
       Mar 3, 2018 via iPhone   ❤️ 1
    幽灵蛛
    malagebidi
        2
    malagebidi  
       Mar 3, 2018
    用 huginn+feedly,完全满足需求。
    devjoe
        3
    devjoe  
       Mar 3, 2018 via iPhone
    直接加载整个网页,然后利用 XPath 解析就行
    bogun
        4
    bogun  
       Mar 3, 2018 via Android
    可以试一下 portia,可视化爬虫
    likuku
        5
    likuku  
       Mar 3, 2018
    IFTTT ?
    chroming
        6
    chroming  
       Mar 3, 2018 via Android   ❤️ 1
    可以看下 pyspider
    4BVL25L90W260T9U
        7
    4BVL25L90W260T9U  
       Mar 3, 2018 via Android   ❤️ 4
    那你就先 mock 一个数据开发呗,做完再说。说不定中途就放弃了
    lScarlet
        8
    lScarlet  
       Mar 3, 2018 via Android
    马克
    brotherlegend
        9
    brotherlegend  
       Mar 3, 2018 via Android
    看大佬们回答
    yuanfnadi
        10
    yuanfnadi  
       Mar 3, 2018 via iPhone   ❤️ 1
    toapi
    可以把网站变成 api
    silencefent
        11
    silencefent  
       Mar 3, 2018
    神箭手
    giuem
        12
    giuem  
       Mar 3, 2018 via iPhone
    safedogcc
        13
    safedogcc  
       Mar 3, 2018   ❤️ 1
    这不就是我的 APP [下一栈]( https://nextstack.xyz)
    该做的事吗!

    原理也是一样,把网站的 html 或者 rss 或者 json api 转换成固定的 json 数据格式,只不过不用爬虫,直接在客户端进行爬取解析,欢迎体验!
    sparkssssssss
        14
    sparkssssssss  
       Mar 3, 2018 via iPhone
    马克
    zhtttyecho
        15
    zhtttyecho  
       Mar 3, 2018
    马克
    zhesheng
        16
    zhesheng  
       Mar 3, 2018 via Android
    马克
    anonnymous
        17
    anonnymous  
       Mar 3, 2018
    克马
    Esora
        18
    Esora  
       Mar 3, 2018
    mark
    leriou
        19
    leriou  
       Mar 3, 2018
    八爪鱼试试
    sohoer
        20
    sohoer  
       Mar 3, 2018
    可以先试用下 hicrawler.com ,目前支持 json api 或发布到 wordpress
    just1
        21
    just1  
       Mar 3, 2018 via Android
    @safedogcc 在安卓版好像只看到了 rss 和知乎专栏
    golmic
        22
    golmic  
       Mar 3, 2018 via Android
    我可以免费提供数据方面的技术支持。微信 lujqme,可以联系我
    limbo0
        23
    limbo0  
       Mar 3, 2018 via iPhone
    不趁现在学习一波 python 吗
    rootit
        24
    rootit  
       Mar 3, 2018
    你想的太简单了。。。
    safedogcc
        25
    safedogcc  
       Mar 4, 2018   ❤️ 1
    @just1 #21
    这类是固定的解析模版,比如 v1.4 的简书专题(近日发布),v1.5 的 hexo 博客支持(待发布)以及后续的 wordpress 博客站点等等一些较常用的 cms 系统(因为基本 dom 元素一致,所以解析代码通用)。

    当然,你有兴趣可以看看开发文档,你会发现绝大部分的网站都可以进行创作哒!
    xuanyuanaosheng
        26
    xuanyuanaosheng  
       Mar 4, 2018 via Android
    mark
    mlyy
        27
    mlyy  
       Mar 4, 2018
    这里有两层难度

    - "指定网站和规则"
    - "我指定网站和规则"
    agdhole
        28
    agdhole  
       Mar 4, 2018
    造数了解一下
    demonchang
        29
    demonchang  
       Mar 4, 2018 via iPhone
    发源地云采集引擎,可以看一下。自带周期更新
    dobelee
        30
    dobelee  
       Mar 4, 2018 via Android
    mark
    gouchaoer
        31
    gouchaoer  
       Mar 4, 2018 via Android
    正在做相关的东西,我爬虫攻城狮干了几年了
    wwb721
        32
    wwb721  
       Mar 4, 2018
    马克
    idcspy
        33
    idcspy  
       Mar 4, 2018
    造数好像可以。
    Shura
        34
    Shura  
       Mar 4, 2018
    feed43
    Brucepac
        35
    Brucepac  
    OP
       Mar 4, 2018
    @agdhole 看网站好像不错,正在申请使用,不知道收不收费
    Brucepac
        36
    Brucepac  
    OP
       Mar 4, 2018
    @limbo0 想后期用 swift 写
    qiqico
        37
    qiqico  
       Mar 4, 2018
    https://www.showapi.com/ent 这个也不错,支持一些自定义规则
    beginor
        38
    beginor  
       Mar 4, 2018 via Android
    lisztli
        39
    lisztli  
       Mar 4, 2018
    lisztli
        40
    lisztli  
       Mar 4, 2018
    scrapinghub 和 scrapy 框架直接绑定,有免费配额,可以直接使用。
    zlstll
        41
    zlstll  
       Mar 5, 2018
    mark 一下
    dingdong
        42
    dingdong  
       Mar 5, 2018
    提供这种服务的网站,如果存储了爬虫数据,在国内会面临法律风险吧
    Jaeger
        43
    Jaeger  
       Mar 5, 2018
    midysky
        44
    midysky  
       Mar 6, 2018
    发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
    midysky
        45
    midysky  
       Mar 6, 2018
    [发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
    8bits
        46
    8bits  
       Dec 15, 2018
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2526 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 147ms · UTC 15:59 · PVG 23:59 · LAX 08:59 · JFK 11:59
    ♥ Do have faith in what you're doing.