推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
carlonelong
V2EX  ›  Python

我也搞了个抓淘宝 MM 的 py 程序

  •  
  •   carlonelong · Mar 31, 2017 · 6461 views
    This topic created in 3335 days ago, the information mentioned may be changed or developed.

    我平时写后台的,看你们爬得高兴也来凑个热闹。 做得很粗糙,没有考虑出错恢复什么的,有时间再加吧。 地址是 https://github.com/carlonelong/TaobaoMMCrawler

    33 replies    2017-04-02 18:17:15 +08:00
    aksoft
        1
    aksoft  
       Mar 31, 2017
    这是抓啥的???
    carlonelong
        2
    carlonelong  
    OP
       Mar 31, 2017
    @aksoft mm 相册
    RE
        3
    RE  
       Mar 31, 2017
    原来是抓淘女郎……
    话说抓过某特定关键词的买家秀,惊喜多多… 楼主可以试试… 记住分类排除内衣的(不让上图
    caicaicaiTrain
        4
    caicaicaiTrain  
       Mar 31, 2017
    @RE 这个刺激了
    mansur
        5
    mansur  
       Mar 31, 2017
    能抓东京的大姐姐吗
    springmarker
        6
    springmarker  
       Mar 31, 2017 via Android
    抓 cosplay 店的
    carlonelong
        7
    carlonelong  
    OP
       Mar 31, 2017
    @RE
    来提供一个~~
    carlonelong
        8
    carlonelong  
    OP
       Mar 31, 2017
    @springmarker 有道理
    tyhunter
        9
    tyhunter  
       Mar 31, 2017
    报错了

    start downloading 田媛媛
    current page 1
    start downloading album 10000702574 45ÕÅ 张
    Traceback (most recent call last):
    File "/Users/hunter/Downloads/TaobaoMMCrawler-master/crawler.py", line 83, in <module>
    c.getAlbums()
    File "/Users/hunter/Downloads/TaobaoMMCrawler-master/crawler.py", line 58, in getAlbums
    self.getImages(model_id, album_id, album_img_count.strip(u'张'))
    File "/Users/hunter/Downloads/TaobaoMMCrawler-master/crawler.py", line 65, in getImages
    for page in xrange(1, (int(image_count)-1)/16+2):
    ValueError: invalid literal for int() with base 10: '45\xd5\xc5'
    carlonelong
        10
    carlonelong  
    OP
       Mar 31, 2017
    @tyhunter 编码出问题了。。 你是啥环境啊
    roist
        11
    roist  
       Mar 31, 2017
    美图秀秀修过度的图,不如看看那些国内的擦边套图
    zwh8800
        12
    zwh8800  
       Mar 31, 2017
    好像有 BUG 啊

    ```
    $ python crawler.py
    start downloading 田媛媛
    current page 1
    start downloading album 10000702574 45ÕÅ 张
    Traceback (most recent call last):
    File "crawler.py", line 83, in <module>
    c.getAlbums()
    File "crawler.py", line 58, in getAlbums
    self.getImages(model_id, album_id, album_img_count.strip(u'张'))
    File "crawler.py", line 65, in getImages
    for page in xrange(1, (int(image_count)-1)/16+2):
    ValueError: invalid literal for int() with base 10: '45\xd5\xc5'
    ```
    123s
        13
    123s  
       Mar 31, 2017
    抓淘宝 MM
    好 h
    xiejc
        14
    xiejc  
       Mar 31, 2017
    41 行 soup = bs(self.readHtml(model_url).decode('gbk'), 'html.parser') 修改成功 不报错了
    carlonelong
        15
    carlonelong  
    OP
       Mar 31, 2017
    @xiejc 好 thx 我改一下
    imherer
        16
    imherer  
       Mar 31, 2017
    Python 版本要多少啊?
    我 2.7 在 Mac 和 Windows 下都报同样的错呢
    ````
    Traceback (most recent call last):
    File "TaobaoMMCrawler.py", line 5, in <module>
    from bs4 import BeautifulSoup as bs
    ImportError: No module named bs4
    ````
    zwh8800
        17
    zwh8800  
       Mar 31, 2017
    @xiejc 👍
    carlonelong
        18
    carlonelong  
    OP
       Mar 31, 2017
    @imherer 这个是因为你没装 beautifulsoup pip install bs4 应该就可以了
    7654
        19
    7654  
       Mar 31, 2017
    可以添加浏览器 UA
    爬的时候限制一下,不然会 GG
    neutrino
        20
    neutrino  
       Mar 31, 2017
    提了个 pr ,有些文件是 png 格式的(
    imherer
        21
    imherer  
       Mar 31, 2017
    @carlonelong 多谢
    carlonelong
        22
    carlonelong  
    OP
       Mar 31, 2017
    @neutrino thx 另外吐个槽,很不喜欢 python3 的 print = =
    carlonelong
        23
    carlonelong  
    OP
       Mar 31, 2017
    @7654 嗯,回头改一下
    7654
        24
    7654  
       Mar 31, 2017
    r#22 @carlonelong import urllib.request
    neutrino
        25
    neutrino  
       Mar 31, 2017
    @carlonelong haha 我是懒得装两份 bs4 requests ……就不说刚开始用 print 的时候是按照 printf 的格式用的了……捂脸
    7654
        26
    7654  
       Mar 31, 2017
    去掉_620x10000.jpg 是大图
    carlonelong
        27
    carlonelong  
    OP
       Mar 31, 2017
    @7654 我去 我居然没有发现
    neutrino
        28
    neutrino  
       Mar 31, 2017
    @7654
    @carlonelong

    去掉以后, imghdr 有时候无法识别格式了,下载了看是 jpg ……
    aksoft
        29
    aksoft  
       Apr 1, 2017 via iPhone
    不能抓回家不好
    carlonelong
        30
    carlonelong  
    OP
       Apr 1, 2017
    @aksoft 3D 打印 你值得拥有
    carlonelong
        31
    carlonelong  
    OP
       Apr 1, 2017
    @neutrino 我今天晚上把俩文件合一块吧
    aksoft
        32
    aksoft  
       Apr 1, 2017
    @carlonelong 不能用 有啥用?
    carlonelong
        33
    carlonelong  
    OP
       Apr 2, 2017
    把 py2/3 放在一起了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4957 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 09:47 · PVG 17:47 · LAX 02:47 · JFK 05:47
    ♥ Do have faith in what you're doing.