• 请不要在回答技术问题时复制粘贴 AI 生成的内容
c0py7hat
V2EX  ›  程序员

Macos 上有没有好用的图形化采集工具/爬虫

  •  
  •   c0py7hat · Apr 15, 2020 · 3627 views
    This topic created in 2219 days ago, the information mentioned may be changed or developed.
    临时需要爬点东西,python 懂得很少很少,因为不怎么用到爬虫之类的

    临时需要爬取点东西,直接就是保存当前页面源码为 html 格式到本地就行

    我看火车头没有 mac 版本,后羿那玩意也得需要 py 还要钱,我的量比较大

    大概百万以上

    有么有大佬推荐下
    27 replies    2020-04-16 12:17:11 +08:00
    airfling
        1
    airfling  
       Apr 15, 2020
    idm 你找下
    c0py7hat
        2
    c0py7hat  
    OP
       Apr 15, 2020
    @airfling 。。idm 也能爬取东西?
    neoblackcap
        3
    neoblackcap  
       Apr 15, 2020
    要不报个价?免费大概满足不了你,毕竟你都上百万了
    ostrichb
        4
    ostrichb  
       Apr 15, 2020 via Android
    idm 不是 Windows only?
    wolfan
        5
    wolfan  
       Apr 15, 2020 via Android
    pySpider 应该符合你的要求,就是到高版本 Python 支持不好。
    c0py7hat
        6
    c0py7hat  
    OP
       Apr 15, 2020
    @wolfan 正在看
    c0py7hat
        7
    c0py7hat  
    OP
       Apr 15, 2020
    @neoblackcap 我不懂这个价格,你说,我自己瞎写了个 py 脚本,但是没多线程啥的 速度太慢了
    Hansah
        8
    Hansah  
       Apr 15, 2020
    虚拟机搭个 WIN7 ?
    zdnyp
        9
    zdnyp  
       Apr 15, 2020
    上百万的数据,不知道用不用代-理,用代-理还要买。八爪鱼和弓箭手都有网页版的,就是你写规则,他来跑采集,量小貌似免费。
    huruwo
        10
    huruwo  
       Apr 15, 2020
    请个外包搞下 自己折腾时间成本太高了
    c0py7hat
        11
    c0py7hat  
    OP
       Apr 15, 2020
    @siknet 。。。吐血
    c0py7hat
        12
    c0py7hat  
    OP
       Apr 15, 2020
    @zdnyp 那估计不行 预计量 300w+
    c0py7hat
        13
    c0py7hat  
    OP
       Apr 15, 2020
    @huruwo 那估计不便宜。。
    yinzhili
        14
    yinzhili  
       Apr 15, 2020
    你装个 Win10 不就完了吗
    clemente0620
        15
    clemente0620  
       Apr 15, 2020
    报个价把
    c0py7hat
        16
    c0py7hat  
    OP
       Apr 15, 2020
    @clemente0620 我不懂这个,你说吧,加个多线程啥的 速度变快那种
    also24
        17
    also24  
       Apr 15, 2020 via Android
    wget -i url.txt 这样?
    also24
        18
    also24  
       Apr 15, 2020
    诶,没注意到还要多线程?
    那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样?

    如果还要套代理的话,买个隧道代理,自动切换多省心~
    c0py7hat
        19
    c0py7hat  
    OP
       Apr 15, 2020
    @also24 不是 我是自己瞎写了个 py 爬虫脚本,就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了 我不会弄那个什么多线程啥的
    vhysug01
        20
    vhysug01  
       Apr 15, 2020
    scrapy 入门一个下午就行,简单无脑。高级的你这种情况也不需要
    also24
        21
    also24  
       Apr 15, 2020
    @c0py7hat #19
    重点在于:
    1 、是否需要配置大量的请求参数
    2 、是否存在限制 IP 、链接时效性之类的


    如果没有太多限制的话,可以自己只写拆 URL 出来的那部分,然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务,多线程的部分就交给 aria2c 来处理。


    如果确实涉及到比较多的流程需要敲代码来搞下载部分,那建议碰一下 aiohttp 这个库:
    https://docs.aiohttp.org/en/stable/
    wangyzj
        22
    wangyzj  
       Apr 15, 2020
    图形化?
    虚机搞 win10
    装个火车头
    c0py7hat
        23
    c0py7hat  
    OP
       Apr 15, 2020
    @also24 好的 多谢
    charlie21
        24
    charlie21  
       Apr 15, 2020 via iPhone
    爬虫无脑 wget
    tikazyq
        25
    tikazyq  
       Apr 15, 2020
    crawlab 的可配置爬虫了解一下?
    gen900
        26
    gen900  
       Apr 15, 2020 via iPhone
    curl 了解一下
    Cmdhelp
        27
    Cmdhelp  
       Apr 16, 2020
    python
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5845 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 83ms · UTC 01:50 · PVG 09:50 · LAX 18:50 · JFK 21:50
    ♥ Do have faith in what you're doing.