• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Northxw
V2EX  ›  程序员

58 同城全国城市房屋信息爬虫

  •  
  •   Northxw · Apr 9, 2019 · 5094 views
    This topic created in 2599 days ago, the information mentioned may be changed or developed.

      虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。

      Github 地址: https://github.com/Northxw/City58。欢迎 star。

    Supplement 1  ·  Apr 9, 2019
    20 replies    2019-06-23 21:06:28 +08:00
    ReturnNull1
        1
    ReturnNull1  
       Apr 9, 2019
    404 了
    lulinux
        2
    lulinux  
       Apr 9, 2019 via Android
    搞这个东西是不可怕的
    rawidn
        3
    rawidn  
       Apr 9, 2019 via iPhone
    律师函警告
    Northxw
        4
    Northxw  
    OP
       Apr 9, 2019 via Android
    @lavenderkissyou emmm... 去浏览器访问, 应该可以进去的。
    Northxw
        5
    Northxw  
    OP
       Apr 9, 2019 via Android
    @rawidn 额, 已添加公告, 若涉及侵权麻烦邮箱联系, 第一时间处理。
    Northxw
        6
    Northxw  
    OP
       Apr 9, 2019 via Android
    @lulinux 额 比较隐晦的话题
    ccoming
        7
    ccoming  
       Apr 9, 2019
    加链接最好后面多留一个空格,免得: https://github.com/Northxw/City58%E3%80%82%E6%AC%A2%E8%BF%8E
    Northxw
        8
    Northxw  
    OP
       Apr 9, 2019 via Android
    @ccoming 抱歉抱歉<(_ _)>
    stop9125
        9
    stop9125  
       Apr 9, 2019
    提几个建议
    1.上传代码的时候去除多余的东西,类似于 _py* 和 *.pyc
    2.密码不要暴露
    3.那个 BUG 和邮箱服务关系不大,你可以再看一下
    Northxw
        10
    Northxw  
    OP
       Apr 9, 2019
    @stop9125 嗯嗯,比如我在.git 设置了忽略.idea,但是我之前已经上传了;然后关于密码,都已经作过更改或者失效了,哈哈;然后,那个 Bug, 慢慢研究吧
    guyeu
        11
    guyeu  
       Apr 9, 2019
    如果要 ignore 已经被 track 的文件,可以`git rm --cached ***`
    Northxw
        12
    Northxw  
    OP
       Apr 9, 2019 via Android
    @guyeu 感谢感谢(❁´ω`❁)
    BB0923
        13
    BB0923  
       Apr 9, 2019
    好东西,小白怎样使用?
    mokeyjay
        14
    mokeyjay  
       Apr 9, 2019
    58 的假数据不是较多,而是基本全都是= =
    Northxw
        15
    Northxw  
    OP
       Apr 9, 2019
    @BB0923 要不你先去快速入门爬虫?挺简单的。

    @mokeyjay 额,小姐姐,这个我真的就不知道了。。。
    li02
        16
    li02  
       Apr 9, 2019
    去年搞了个跑在 Console 里的爬虫,爬自己的城市足够了
    Northxw
        17
    Northxw  
    OP
       Apr 9, 2019 via Android
    @li02 部署到远端 server 了吧
    li02
        18
    li02  
       Apr 9, 2019
    @Northxw 记不清了,记得只是输出 CSV 文件,优点就是方便
    Northxw
        19
    Northxw  
    OP
       Apr 9, 2019 via Android
    @li02 都行的, 部署完后, 数据处理方式看自己啦
    luoleng
        20
    luoleng  
       Jun 23, 2019
    楼主研究过那个手势验证码嘛?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1388 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 17:13 · PVG 01:13 · LAX 10:13 · JFK 13:13
    ♥ Do have faith in what you're doing.