虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。
Github 地址: https://github.com/Northxw/City58。欢迎 star。
虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。
Github 地址: https://github.com/Northxw/City58。欢迎 star。
1
ReturnNull1 Apr 9, 2019
404 了
|
2
lulinux Apr 9, 2019 via Android
搞这个东西是不可怕的
|
3
rawidn Apr 9, 2019 via iPhone
律师函警告
|
4
Northxw OP @lavenderkissyou emmm... 去浏览器访问, 应该可以进去的。
|
7
ccoming Apr 9, 2019
加链接最好后面多留一个空格,免得: https://github.com/Northxw/City58%E3%80%82%E6%AC%A2%E8%BF%8E
|
9
stop9125 Apr 9, 2019
提几个建议
1.上传代码的时候去除多余的东西,类似于 _py* 和 *.pyc 2.密码不要暴露 3.那个 BUG 和邮箱服务关系不大,你可以再看一下 |
10
Northxw OP @stop9125 嗯嗯,比如我在.git 设置了忽略.idea,但是我之前已经上传了;然后关于密码,都已经作过更改或者失效了,哈哈;然后,那个 Bug, 慢慢研究吧
|
11
guyeu Apr 9, 2019
如果要 ignore 已经被 track 的文件,可以`git rm --cached ***`
|
13
BB0923 Apr 9, 2019
好东西,小白怎样使用?
|
14
mokeyjay Apr 9, 2019
58 的假数据不是较多,而是基本全都是= =
|
16
li02 Apr 9, 2019
去年搞了个跑在 Console 里的爬虫,爬自己的城市足够了
|
20
luoleng Jun 23, 2019
楼主研究过那个手势验证码嘛?
|