• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alexapollo
V2EX  ›  程序员

Scrapy: 爬取豆瓣书籍 //以及几个简单实例

  •  
  •   alexapollo ·
    geekan · Feb 1, 2014 · 8631 views
    This topic created in 4485 days ago, the information mentioned may be changed or developed.
    源码: https://github.com/geekan/scrapy-examples
    这个工程是为了 http://www.oschina.net/code/snippet_1026739_25291 的改写而试手的作品,依赖Scrapy爬虫框架。
    现在有几个基本的爬虫:douban书籍爬取,linkedin的公共资料爬取,以及几个很有用的入门tutorial。
    截图: https://raw2.github.com/geekan/resource_collection/master/image/doubanbook.jpg
    11 replies    1970-01-01 08:00:00 +08:00
    faceair
        1
    faceair  
       Feb 1, 2014
    要做图书馆数据整合,刚巧用得上,谢~
    alexapollo
        2
    alexapollo  
    OP
       Feb 1, 2014   ❤️ 1
    @faceair 哈哈~ 大恩不言谢,红包呢!
    alexapollo
        3
    alexapollo  
    OP
       Feb 1, 2014
    更新了hrtencent的爬取~
    lincanbin
        4
    lincanbin  
       Feb 1, 2014
    上个月写过一个爬豆瓣读书的,为了整合一个图书馆系统。
    豆瓣读书有一个现成的API,Response是JSON格式,非常方便。
    alexapollo
        5
    alexapollo  
    OP
       Feb 2, 2014
    @lincanbin 多谢回复。有看过API,但这个工程也仅是为了练Scrapy :)
    bearcat001
        6
    bearcat001  
       Feb 2, 2014
    你用递归了吗?scrapy如何做递归比较舒服...?
    我一直再用yield Request,可控性不高
    alexapollo
        7
    alexapollo  
    OP
       Feb 2, 2014
    @bearcat001 递归的目的是?爬整站吗?我原来写了一套递归系统,但感觉Rule还挺好用,就都废弃了
    funcman
        8
    funcman  
       Feb 3, 2014
    豆瓣的数据根本不值得爬。
    alexapollo
        9
    alexapollo  
    OP
       Feb 3, 2014   ❤️ 1
    @funcman Example而已。。
    funcman
        10
    funcman  
       Feb 3, 2014
    @alexapollo 是对想弄图书馆数据的一楼说的。
    robertlyc
        11
    robertlyc  
       Feb 4, 2014
    豆瓣有api提供
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5540 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 08:00 · PVG 16:00 · LAX 01:00 · JFK 04:00
    ♥ Do have faith in what you're doing.