apley
V2EX  ›  问与答

关于爬虫爬取网站音频的问题

  •  
  •   apley · Dec 1, 2020 · 2218 views
    This topic created in 1990 days ago, the information mentioned may be changed or developed.

    http://www.2uxs.com/youshengxiaoshuo/12999/ 直接给出例子,我在测试的时候发现他调用的.m4a 文件后面跟了一个 get 参数,每次不一样,但是每次访问都给出是不存在的页面,jplayer 大佬们有么有研究的

    6 replies    2020-12-02 14:54:13 +08:00
    Hansah
        1
    Hansah  
       Dec 1, 2020 via Android
    防盗链的
    imdong
        2
    imdong  
       Dec 1, 2020   ❤️ 1
    没啥特别的,他会加载一个 /player/12999/121/37272.html 页面,这个页面里面有对应的 m4a 文件地址,包含这个 key 。

    但是是一段经过随机变量名处理过的,而且每次格式还不太一样。

    但是总归还是好弄,最后得到的 m4a 带上 这个页面的来路即可获取到。
    apley
        3
    apley  
    OP
       Dec 2, 2020 via iPhone
    @imdong 页面的来路?你指的是 xff ?
    ybnsjl
        4
    ybnsjl  
       Dec 2, 2020
    charles 抓包搜索 key 的值,原来的 html 页面(如 http://www.2uxs.com/player/12999/122/37272.html ) 51 行附近有一个`mp3:''+PlayxC1Hrynp+'/都市言情 /我的老千江湖 /0001.m4a?key=5995691b59f6a222c5e7373e627b30e0_1606871504'`的值,正则提出来就好了
    zzz686970
        5
    zzz686970  
       Dec 2, 2020
    @apley 你的请求 header 带上 Referer 就可以了,这个表示你是从这个页面访问过来的。
    apley
        6
    apley  
    OP
       Dec 2, 2020 via iPhone
    感谢老哥们,总结一下,就是在跳转页面抓取到随机的 key 然后加 Refere 去请求就行
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1005 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 19:14 · PVG 03:14 · LAX 12:14 · JFK 15:14
    ♥ Do have faith in what you're doing.