• 请不要在回答技术问题时复制粘贴 AI 生成的内容
yurman
V2EX  ›  程序员

请教一下爬虫技术

  •  
  •   yurman · Mar 5, 2024 · 5343 views
    This topic created in 810 days ago, the information mentioned may be changed or developed.

    淘宝的生意参谋,这种平台为啥有全网各平台的数据,甚至还可以看竞争对手的数据。。。 我用 rpa 试过模拟人的操作去获取,效率低不说还经常会被封号。它们这种平台是如何做到不会被封号,还能实时更新最新数据,这是怎么做到的?

    20 replies    2024-03-05 17:53:23 +08:00
    ZnductR0MjHvjRQ3
        1
    ZnductR0MjHvjRQ3  
       Mar 5, 2024
    你难道就没想过 有 openAPI 吗?
    securityCoding
        2
    securityCoding  
       Mar 5, 2024
    买的数据
    looplj
        3
    looplj  
       Mar 5, 2024
    应该是互相爬的吧。
    前段时间还有新闻,京东的爬虫被 pdd 屏蔽了。https://36kr.com/p/2610860492414852
    looplj
        4
    looplj  
       Mar 5, 2024
    爬虫是有技术的,淘宝的听说就挺难搞的。
    yurman
        5
    yurman  
    OP
       Mar 5, 2024
    @Motorola3 有猜过是走接口,老板不知道哪里看的别人说是用啥爬虫技术实现的,我觉得不可能有这样的能够大量爬取还能防封
    yurman
        6
    yurman  
    OP
       Mar 5, 2024
    @ZSeptember 淘宝是很麻烦,已经是低量数据爬取,完全模拟人为操作。偶尔还是能触发警告
    BeiChuanAlex
        7
    BeiChuanAlex  
       Mar 5, 2024
    很简单,买数据,给钱就能办到。你陷入到了技术的思维漩涡,线下花钱可以办到线上花大力气都办不到的事情。
    yurman
        8
    yurman  
    OP
       Mar 5, 2024
    @BeiChuanAlex 我是觉得是没有啥技术能做到,可惜我只是个打工仔,老板不信 :(
    wanniwa
        9
    wanniwa  
       Mar 5, 2024
    有的公司是专门成立爬虫组,立项去攻克研究的。投入成本就会有收获。一步步去拆解剖析
    naver1
        10
    naver1  
       Mar 5, 2024
    淘宝我真人去访问都费劲,动不动就弹验证,还经常验证失败。。。
    yahooer
        11
    yahooer  
       Mar 5, 2024
    也有第三方接口供应商 像淘宝的比如这个 www.idatariver.com/zh-cn/projects
    lilei2023
        12
    lilei2023  
       Mar 5, 2024
    淘宝这个真人访问,都经常弹,被人机器了,真恶心,
    GBdG6clg2Jy17ua5
        13
    GBdG6clg2Jy17ua5  
       Mar 5, 2024
    商业级爬,是需要资源的。
    你有多少个独立的 ip 地址?你有多少个用户号?
    曾经在某旅游网站做个爬友商相关的项目,光买 ip 资源就用了三百万,还不包含自己机房的 ip
    该花的钱还是得花。
    corcre
        14
    corcre  
       Mar 5, 2024
    淘宝的反爬做的挺好的(甚至能防正常用户), 目前说到低成本爬淘宝数据站立的老哥一个个都是摇头
    Blanke
        15
    Blanke  
       Mar 5, 2024
    有商业的成熟方案,很多数据公司内部都是全网怕,tb jd pdd 这些都是基操了,只要花得起升本,肯定能搞定
    Blanke
        16
    Blanke  
       Mar 5, 2024
    @Blanke 打错。有商业的成熟方案,很多数据公司内部都是全网爬,tb jd pdd 这些都是基操了,只要花得起成本,肯定能搞定
    lizhenda
        17
    lizhenda  
       Mar 5, 2024
    @angryfish 我觉得这 300w 大概率是被中间吃回扣吃掉了
    sergio948
        18
    sergio948  
       Mar 5, 2024
    我最近看豆瓣的反爬也是挺 6 的,第一次遇到,看抓包情况好像是做了加密,反正没看懂
    wanniwa
        19
    wanniwa  
       Mar 5, 2024
    @sergio948 #18 豆瓣可是以前所有爬虫新手的最爱爬的网站了。估计被爬怕了
    hackerfans
        20
    hackerfans  
       Mar 5, 2024
    淘客有 API
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3049 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 199ms · UTC 03:01 · PVG 11:01 · LAX 20:01 · JFK 23:01
    ♥ Do have faith in what you're doing.