mysky007's recent timeline updates
mysky007

mysky007

V2EX member #287439, joined on 2018-01-28 23:21:07 +08:00
mysky007's recent replies
通过搜狗入口抓取,有两种方案可以获取到文章的链接:1、解析 html 中的 json 数据。2、使用 seimiAgent 动态加载页面,再用 xpath 提取。使用第一种成本较低。至于 ip 可能被封问题,可考虑接多家 ip 代理服务商切换代理。http://www.keydatas.com/doc/fuyYRzrY7vy2 这个平台采用的就是这种方案,可以采集,但速度没有普通网页快,可能是尝试了不同 IP 代理比较耗时。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3453 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 10:34 · PVG 18:34 · LAX 03:34 · JFK 06:34
♥ Do have faith in what you're doing.