wuyuchenshishabi

爬虫还得招专门的工程师?

  •  
  •   wuyuchenshishabi · Nov 18, 2017 · 6624 views
    This topic created in 3101 days ago, the information mentioned may be changed or developed.

    这不是一个数据从业者的基本素养?

    24 replies    2017-12-09 12:52:24 +08:00
    bazingaterry
        1
    bazingaterry  
       Nov 18, 2017 via iPhone
    术业有专攻,看需求
    p2pCoder
        2
    p2pCoder  
       Nov 18, 2017   ❤️ 3
    要看你要收集的数据的多少和爬取的网站的难度了

    就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫

    核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上

    然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑

    这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门
    ljcarsenal
        3
    ljcarsenal  
       Nov 18, 2017 via Android
    @p2pCoder 阿里系这种大公司也能破?
    p2pCoder
        4
    p2pCoder  
       Nov 18, 2017
    @ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
    只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行
    京东和淘宝我们都这样做了,不过相当麻烦

    反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候


    当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie
    takanasi
        5
    takanasi  
       Nov 18, 2017 via Android
    @p2pCoder 真阴险啊
    p2pCoder
        6
    p2pCoder  
       Nov 18, 2017
    @takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
    说到底,这些老板 还是想做自己的风控,做自己的数据
    golmic
        7
    golmic  
       Nov 18, 2017
    @p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。
    codermagefox
        8
    codermagefox  
       Nov 18, 2017
    @p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜
    hugee
        9
    hugee  
       Nov 18, 2017 via Android
    采简单的东西当然没问题,一看 lz 就是没遇到过有难度的
    sunchen
        10
    sunchen  
       Nov 18, 2017   ❤️ 1
    日常 30%时间写爬虫的路过。
    想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码?
    其实我想说 sql 写的溜一般是爬虫工程师的基本素养。
    sensui7
        11
    sensui7  
       Nov 18, 2017
    有没有专门的岗位取决于工作量, 而不是技术.
    Lin3w
        12
    Lin3w  
       Nov 18, 2017 via Android
    大型分布式爬虫。。。
    而且工作量是岗位分配的一个影响因素吧
    gouchaoer
        13
    gouchaoer  
       Nov 18, 2017 via Android
    @sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了?
    gouchaoer
        14
    gouchaoer  
       Nov 18, 2017 via Android
    @sunchen 能求个微博关注一下么? V2EX 没私信不好说啊,我这边有些心得我们可以交流一下
    defunct9
        15
    defunct9  
       Nov 18, 2017 via iPhone   ❤️ 1
    感觉楼上都是作恶的人啊
    gouchaoer
        16
    gouchaoer  
       Nov 18, 2017 via Android
    @defunct9 don't judge,尤其用谷歌的信条来 judge 人
    sunchen
        17
    sunchen  
       Nov 18, 2017
    @gouchaoer 不用微博,马化腾 MjQ0MTkzMjkw
    artandlol
        18
    artandlol  
       Nov 18, 2017 via iPhone
    防爬虫都可以再招个人
    shyling
        19
    shyling  
       Nov 18, 2017
    表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取?
    whatisnew
        20
    whatisnew  
       Nov 18, 2017
    开发还得招专门的开发工程师?产品运营客服两下就搞定了
    SlipStupig
        21
    SlipStupig  
       Nov 19, 2017
    Google 一定没有爬虫工程师,因为这个不是基本素养嘛
    abcbuzhiming
        22
    abcbuzhiming  
       Nov 19, 2017
    楼主你自己去看看最近的反爬,反反爬技术进步到什么程度了,这行我觉得难度已经追上搞安全和逆向的行业了,怎么会不需要专业工程师
    we3613040
        23
    we3613040  
       Nov 20, 2017
    征信都能爬到?不是得有短信验证码么
    @p2pCoder
    newzy
        24
    newzy  
       Dec 9, 2017
    @p2pCoder @all,回复的都是什么心态需要反思一下。有空多提升一下技术,就不会有这么多无聊的问题。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3032 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 531ms · UTC 04:14 · PVG 12:14 · LAX 21:14 · JFK 00:14
    ♥ Do have faith in what you're doing.