推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Negan
V2EX  ›  Python

如何爬取日本亚马逊的商品数据?

  •  
  •   Negan · Jan 4, 2019 · 3989 views
    This topic created in 2698 days ago, the information mentioned may be changed or developed.
    老大给了个任务要爬日本亚马逊上某类商品的价格以及评论,自己之前都是爬国内的,日本亚马逊现在被墙了,需要怎么样才能爬到数据呢? lantern 连上了然后终端 export https_proxy=localhost:port 也试过了,国外的代理 IP 也试过了,都以失败告终,错误如下:
    requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.amazon.co.jp', port=443): Max retries exceeded with url: /dp/B000UTKMDQ (Caused by ProxyError('Cannot connect to proxy.', ConnectionResetError(104, 'Connection reset by peer')))
    请问一下各位,是怎么爬的? API 还是其他方式?感谢感谢
    12 replies    2019-01-04 14:10:35 +08:00
    run2
        1
    run2  
       Jan 4, 2019
    被墙了就找国外的服务器部署爬呗
    难道你要自己掏钱?
    kanata
        2
    kanata  
       Jan 4, 2019
    。。。买台日本服务器呗,对于公司来说一个月也没多少钱
    Negan
        3
    Negan  
    OP
       Jan 4, 2019
    @sobigfish 掏钱肯定是老大掏,我就想看看还有没有其他方法能够爬到数据,哈哈,感谢大佬回答
    Negan
        4
    Negan  
    OP
       Jan 4, 2019
    @kanata 公司应该有,我想的是能自己解决就自己解决,搞不定再找老大
    vtwoextb
        5
    vtwoextb  
       Jan 4, 2019
    买个 linode 不就行了吗 很便宜的
    edsheeran
        6
    edsheeran  
       Jan 4, 2019 via iPhone
    姿勢不對
    locoz
        7
    locoz  
       Jan 4, 2019
    被墙了的网站你直接用国内的机子连国外代理是不可能爬的。。。要不然帆樯的时候还用得着酸酸之类的东西吗,直接连个代理就完了。
    ctro15547
        8
    ctro15547  
       Jan 4, 2019
    几十块一个月随便搞个搬瓦工部署一下唄,对于数据而言这点钱不算啥吧
    gogo2
        9
    gogo2  
       Jan 4, 2019
    amazon 不好爬的, 和淘宝一样的,
    testcaoy7
        10
    testcaoy7  
       Jan 4, 2019
    其实我一直不明白为什么要墙亚马逊日本
    run2
        11
    run2  
       Jan 4, 2019
    @testcaoy7 #10 估计日本文化的东西,但那种东西好像本来就不能出口
    ---
    lz 爬这些肯定不是一次性的,所以代理什么的只能解决几次需求,部署到国外的服务器上一直实时爬才是好的节奏。
    JasperYanky
        12
    JasperYanky  
       Jan 4, 2019
    有 api
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   952 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 19:46 · PVG 03:46 · LAX 12:46 · JFK 15:46
    ♥ Do have faith in what you're doing.