• 请不要在回答技术问题时复制粘贴 AI 生成的内容
musclepanda
V2EX  ›  程序员

新人学爬虫,求问新浪微博查看正常的源代码

  •  
  •   musclepanda · Jun 17, 2018 · 3603 views
    This topic created in 2916 days ago, the information mentioned may be changed or developed.

    随便找个微博的页面 比如: https://weibo.com/u/2850809427

    调出 F12 代码检查器,可以看到正常的 html 代码

    但是在页面上直接右键查看源代码,都是乱码呀……

    求问,怎么才能获取这些正常的 html 代码,不然爬虫不知道怎么做了。。。

    12 replies    2018-06-18 08:58:47 +08:00
    musclepanda
        1
    musclepanda  
    OP
       Jun 17, 2018
    右键查看的源代码:


    F12 检查器看的代码
    bytewalk
        2
    bytewalk  
       Jun 17, 2018   ❤️ 1
    那只是没有格式化吧。。。
    musclepanda
        3
    musclepanda  
    OP
       Jun 17, 2018
    @poorcai 不懂,请多多指教
    levywang
        4
    levywang  
       Jun 17, 2018 via Android
    cydian
        5
    cydian  
       Jun 17, 2018 via Android
    楼主没有认真比对代码吧。
    一个格式化一个没有。。。
    对爬虫又不影响。
    感觉新浪微博压缩了代码,不仅起到了节约网络流量的目的(以及其他的目的),还起到了防止低级爬虫来偷窥的作用
    airyland
        6
    airyland  
       Jun 17, 2018 via iPhone
    建议爬手机站,直接 json 数据
    qiayue
        7
    qiayue  
    PRO
       Jun 17, 2018
    楼主两个截图都不是同一个地方,怎么对比
    tuwulin365
        8
    tuwulin365  
       Jun 17, 2018
    不要爬煎蛋
    mmnsghgn
        9
    mmnsghgn  
       Jun 17, 2018
    m.weibo.cn/beta
    抓网络请求
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
       Jun 18, 2018
    优先搞 json 没有再拆 html
    opengps
        11
    opengps  
       Jun 18, 2018 via Android
    仅仅是没格式化
    alvin666
        12
    alvin666  
       Jun 18, 2018 via Android
    这两个不是一样的吗。。。这也叫乱码啊,那不知道以后你遇到编码问题是不是会觉得电脑中毒了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5657 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 85ms · UTC 02:19 · PVG 10:19 · LAX 19:19 · JFK 22:19
    ♥ Do have faith in what you're doing.