Macos 上有没有好用的图形化采集工具/爬虫

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2219 days ago, the information mentioned may be changed or developed.

临时需要爬点东西，python 懂得很少很少，因为不怎么用到爬虫之类的

临时需要爬取点东西，直接就是保存当前页面源码为 html 格式到本地就行

我看火车头没有 mac 版本，后羿那玩意也得需要 py 还要钱，我的量比较大

大概百万以上

有么有大佬推荐下

爬虫

后羿

macOS

Python

27 replies • 2020-04-16 12:17:11 +08:00

airfling

Apr 15, 2020

idm 你找下

c0py7hat

Apr 15, 2020

@airfling 。。idm 也能爬取东西？

neoblackcap

Apr 15, 2020

要不报个价？免费大概满足不了你，毕竟你都上百万了

ostrichb

Apr 15, 2020 via Android

idm 不是 Windows only?

wolfan

Apr 15, 2020 via Android

pySpider 应该符合你的要求，就是到高版本 Python 支持不好。

c0py7hat

Apr 15, 2020

@wolfan 正在看

c0py7hat

Apr 15, 2020

@neoblackcap 我不懂这个价格，你说，我自己瞎写了个 py 脚本，但是没多线程啥的速度太慢了

Hansah

Apr 15, 2020

虚拟机搭个 WIN7 ？

zdnyp

Apr 15, 2020

上百万的数据，不知道用不用代-理，用代-理还要买。八爪鱼和弓箭手都有网页版的，就是你写规则，他来跑采集，量小貌似免费。

huruwo

Apr 15, 2020

请个外包搞下自己折腾时间成本太高了

c0py7hat

Apr 15, 2020

@siknet 。。。吐血

c0py7hat

Apr 15, 2020

@zdnyp 那估计不行预计量 300w+

c0py7hat

Apr 15, 2020

@huruwo 那估计不便宜。。

yinzhili

Apr 15, 2020

你装个 Win10 不就完了吗

clemente0620

Apr 15, 2020

报个价把

c0py7hat

Apr 15, 2020

@clemente0620 我不懂这个，你说吧，加个多线程啥的速度变快那种

also24

Apr 15, 2020 via Android

wget -i url.txt 这样？

also24

Apr 15, 2020

诶，没注意到还要多线程？
那就 aria2c --max-concurrent-downloads=10 --input-file=download-list.txt 这样？

如果还要套代理的话，买个隧道代理，自动切换多省心~

c0py7hat

Apr 15, 2020

@also24 不是我是自己瞎写了个 py 爬虫脚本，就是 requests 请求网页然后获取 response 的 content 保存到本地为 x.html 现在问题是速度太慢了我不会弄那个什么多线程啥的

vhysug01

Apr 15, 2020

scrapy 入门一个下午就行，简单无脑。高级的你这种情况也不需要

also24

Apr 15, 2020

@c0py7hat #19
重点在于：
1 、是否需要配置大量的请求参数
2 、是否存在限制 IP 、链接时效性之类的

如果没有太多限制的话，可以自己只写拆 URL 出来的那部分，然后把需要下载的页面的 URL 灌入 aria2c 的 RPC API 来添加任务，多线程的部分就交给 aria2c 来处理。

如果确实涉及到比较多的流程需要敲代码来搞下载部分，那建议碰一下 aiohttp 这个库：
https://docs.aiohttp.org/en/stable/