midysky's recent timeline updates
midysky

midysky

V2EX member #144759, joined on 2015-10-28 14:57:05 +08:00
Per midysky's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
midysky's recent replies
[发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
@lecher 关于 100w 数据切分的代码思路大概是怎样的?
@lecher 代理这块普通透明代理是否适用于爬虫采集?还是必须要用匿名、高匿名的代理?

淘宝支付宝后台导出 excel 数据时就是分两次处理的。第一步显示 UI 同步导出数据到文件,第二步将该文件链接作为下载对象进行导出下载。你说的切分是怎样的逻辑?
@rekulas 嗯 php 主要用于逻辑方面。 dump 你说的具体是指 sphinx 的哪个地方? 100w 数据通常从 mysql 数据库到 excel 本地文件,具体什么样的逻辑?
@Felldeadbird 1 、比如 mysql 导出 100w 结构化数据到 excel ,最好给个大概代码逻辑参考下? mysql 的 output 命令还是 sql 查询处理到内存?
@Moker 像广告。那我把网址删除?
@Felldeadbird 感谢. ip 网上买的很多。质量高的有测试过哪个好?
第三点就是采集的数据丢到一个独立的服务器环境进行处理,比如一个完整的 html 全文,过去返回其中一个标签。

重点是 mysql 导出问题。你说的分块具体是怎样的?效率怎样?
@Comdex 部分逻辑用 PHP ,底层 c++扩展,还有 python 。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1321 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 17:14 · PVG 01:14 · LAX 10:14 · JFK 13:14
♥ Do have faith in what you're doing.