爱意满满的作品展示区。
billyellow

Zaoshu.io - 爬虫界的“美图秀秀”

  •  
  •   billyellow · Oct 18, 2016 · 6673 views
    This topic created in 3494 days ago, the information mentioned may be changed or developed.

    啦啦啦, 给大家推荐 Zaoshu.io (造数),欢迎大家拍砖~ ; ) 地址是 http://www.zaoshu.io

    我们通过一套网页分析的算法,分析出网页中结构化的数据,然后再爬取页面中的数据。

    有趣的点: 1.我们完全 base 在云上,省去下载软件的麻烦,也提高了爬取速率 2.我们有智能页面分析的算法,所以用户不需要懂编程和正则,轻点几下就可以爬取数据并导出 Excel 。

    你可以通过 zaoshu.io 来做市场的调查分析,来做竞品的监控,也可以做产品反馈的收集。

    Feedback: 产品刚刚 Alpha 上线,所以问题不少,欢迎大家来试用~ 欢迎大家留言讨论,也可以邮件 billy#zaoshu.io : )

    Supplement 1  ·  Oct 18, 2016
    暂时还不支持 ajax 站哈
    25 replies    2016-10-27 17:33:50 +08:00
    Joway
        1
    Joway  
       Oct 18, 2016
    貌似废了, 试了三个网站都卡在正在分析界面 - -

    ps: 昨天 hackathon 还做了一个差不多的东西 ,想问你们这套算法开源吗? 或者能提供点分析思路吗 ? 我是才用行块正文提取 , 但进一步对正文进行结构化提取还真想不出好的方法
    a570295535
        2
    a570295535  
       Oct 18, 2016
    然而半个小时后。。。
    ewex
        3
    ewex  
       Oct 18, 2016 via Android
    用的 wosign 证书,表示已拉黑证书的打不开
    binux
        4
    binux  
       Oct 18, 2016
    根本没有「分析出网页中结构化的数据」,就是非常基础的通过 DOM class id 的 selector 规则生成,连 group 对其都没做好。
    haocity
        5
    haocity  
       Oct 18, 2016
    我只想说根本收不到邮件
    prefere
        6
    prefere  
       Oct 18, 2016
    见了鬼了,我都拉黑了 wosign 了,怎么还能打开。
    还要把 startCom 也拉黑了?
    kiah
        7
    kiah  
       Oct 18, 2016
    然而直接打不开了
    prefere
        8
    prefere  
       Oct 18, 2016
    搞定了,终于打不开了。 dog
    skinfiter
        9
    skinfiter  
       Oct 19, 2016
    你们。。。
    0xNone
        10
    0xNone  
       Oct 19, 2016
    Go dead.
    patton
        11
    patton  
       Oct 19, 2016
    一直停留这个页面上分析页面上,没有结果出来
    zqiyun
        12
    zqiyun  
       Oct 19, 2016
    你们真过分!
    diefishfish
        13
    diefishfish  
       Oct 19, 2016
    随便找了个页面测试,创建规则的时候页码输入 100000009 到 114400009 然后发现并没有创建成功,是什么问题咧
    billyellow
        14
    billyellow  
    OP
       Oct 19, 2016
    @ewex 我们马上换证书~~
    billyellow
        15
    billyellow  
    OP
       Oct 19, 2016
    @prefere 马上换证书~~~
    billyellow
        16
    billyellow  
    OP
       Oct 19, 2016
    @Joway 目前我们用得还是比较简单的算法,升级中 哈哈 有兴趣可以私聊
    billyellow
        17
    billyellow  
    OP
       Oct 19, 2016
    @binux 可能是我描述没写的精确,目前还不算是分析,算是提取~
    soulmine
        18
    soulmine  
       Oct 20, 2016
    网络异常 请稍后再试
    讲道理 你们这注册都不行 怎么留用户 Hhhhh
    beidouxun
        19
    beidouxun  
       Oct 20, 2016 via Android
    我的网站就用了爬虫,现在正在完善中。为了精确用了正则, xpath ,字符串三种方式。现在也在寻找算法但是现在没有很好的算法,能自动并精确的寻找时间 正文 标题等所需要的内容
    mingyun
        20
    mingyun  
       Oct 21, 2016
    太慢了,卡死不动了
    micookie
        21
    micookie  
       Oct 22, 2016
    注册邮件直接进了 QQ 邮箱直接标记为垃圾邮件。。
    fhefh
        22
    fhefh  
       Oct 24, 2016
    一直停留在 正在分析 这个 loading 状态在
    ragnaroks
        23
    ragnaroks  
       Oct 25, 2016
    爬取我自己的网站后,进入列表页,点击"我调好了",然后就没有然后了
    billyellow
        24
    billyellow  
    OP
       Oct 27, 2016
    @micookie 邮件这块还在优化中哈
    billyellow
        25
    billyellow  
    OP
       Oct 27, 2016
    @diefishfish 目前页码有个上限~
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3823 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 87ms · UTC 04:36 · PVG 12:36 · LAX 21:36 · JFK 00:36
    ♥ Do have faith in what you're doing.