想解放人力.浏览器插件是否可以代替爬虫?

This topic created in 670 days ago, the information mentioned may be changed or developed.

老婆是做数据分析的,每天就是用 pandas 处理各种原始 excel.但是 excel 来自于第三方服务的管理后台(xx 商家版),需要用指定账号登录上去下载.

数据处理过程已经很自动化了.现在就是这个原始 excel 下载蛮烦人的,每天都要做. 想解决这个问题,打通全流程.

最开始想的是爬虫,毕竟 python 做起来也方便.我用 postman 尝试了下,各种加密头,还得从登陆流程开始分析,没做过这方面,还是有点难度.

我本职是前端开发,最近再看浏览器插件,感觉这东西能做的也挺多的,似乎也可以实现点击按钮下载文件的功能,而且直接绕过了第三方的接口安全校验,要是能调起本地 python 就更好了...

对此产生了一个想法:是否大部分需要爬虫的地方都可以用对应的浏览器插件来代替呢?

10 replies • 2024-08-30 18:32:14 +08:00

weixind

Aug 30, 2024

起个 playwright 爬就完事了。

Y25tIGxpdmlk

Aug 30, 2024

python 我记得不是有模拟浏览器的库吗，类似 selenium 之类的。

py 虽然不用，但是我知道这类轮子已经有很多人找好了。当然你说的直接写插件也可以

BruceXu

Aug 30, 2024

@weixind #1 卧槽老哥.我发现新大陆了.这东西很有意思啊..

19cm

Aug 30, 2024

直接写个油猴脚本模拟点击下载不就行了

hrdom

Aug 30, 2024

总之就是不大批量爬的话不要逆向 js ，而是模拟个浏览器环境

wangee

Aug 30, 2024

你都用浏览器插件了，不如用浏览器自动化工具。我倒不推荐 playright ，简单的数据抓取可以用这个：

https://github.com/g1879/DrissionPage

wutongshuxia

Aug 30, 2024

wutongshuxia

Aug 30, 2024

@wutongshuxia 之前写的一个自动化框架，只要配一下 json 就行

NoOneNoBody

Aug 30, 2024

上周用油猴自动爬了 2w+页面，用无头总是被 cloudfare 拦截，懒得研究 cookies ，干脆开油猴上，反正也不多

kamal

Aug 30, 2024

可以试试影刀