PornHub 爬蟲 - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2792 days ago, the information mentioned may be changed or developed.

目前 java 很少人分享跟實作爬蟲, 分享下目前遇到的狀況跟心得

1.該網站若連續訪問多次會進入一個空白頁, 該頁面會運算下一個頁面的 cookie 此時的 httpstatus 為 200 (已解決, 使用 java 讀取頁面後 run javascript 程式碼計算出來) 2.若連線短時間過多, 會被 server 檔目前只能降低連線次數!!? 或是用個 proxy(找不到相關討論)? 3.若有爬虫高手想请问你们怎么防止重复爬爬过的网站

支持的朋友麻煩幫我點個星, Thanks~

已實作完畢的功能:

1. h2xSpirngDB 纪录已攀过的网站
2.config.properties 可选择不进行下载(單存資料蒐集, 可分析數據!?)
3.搜寻页面可查看数据库资料```


目前需要方向, 還未實作的功能:
1.Java deep learning 对一些资料做出分析整理（这里完全没有概念...预计要 2~3 周时间才能做到了）
2.如上提到的 proxy request(如何實作還不清楚)

Supplement 1 · Nov 8, 2018

Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值，
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算，再放进 cookie 中
429 的错误已解决，目前稳定爬资料一晚。

6 replies • 2018-11-08 18:29:47 +08:00

1

chanchan

Nov 6, 2018

PH?我石更了

2

JCZ2MkKb5S8ZX9pq

Nov 6, 2018

1

虽然以前也爬过 mgs，为成人展选嘉宾找数据参考，后来做运营设计也参考过。
但这玩意儿上 github 已经很有勇气了……我是没勇气点赞啦……

3

shenxgan

Nov 7, 2018

1

爬的过程中，楼主的脑子里只有代码吗？

4

timliu22322266

OP

Nov 8, 2018

@shenxgan 老司机~ 够专业 XD.

5

timliu22322266

OP

Nov 8, 2018

Pornhub 用页面的 javascript 计算出下一次请求的 cookie 值，
所以无法单纯使用请求拿到这组键
目前用 java 读取该页面的公式及参数运算，再放进 cookie 中
429 的错误已解决，目前稳定爬资料一晚。

6

unmois

Nov 8, 2018

憋说了忍不住了

About · Help · Advertise · Blog · API · FAQ · Solana · 3639 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 45ms · UTC 00:44 · PVG 08:44 · LAX 17:44 · JFK 20:44
♥ Do have faith in what you're doing.