目前 java 很少人分享跟實作爬蟲, 分享下目前遇到的狀況跟心得
1.該網站若連續訪問多次會進入一個空白頁, 該頁面會運算下一個頁面的 cookie 此時的 httpstatus 為 200 (已解決, 使用 java 讀取頁面後 run javascript 程式碼計算出來) 2.若連線短時間過多, 會被 server 檔 目前只能降低連線次數!!? 或是用個 proxy(找不到相關討論)? 3.若有爬虫高手想请问你们怎么防止重复爬爬过的网站
支持的朋友麻煩幫我點個星, Thanks~
已實作完畢的功能:
1. h2xSpirngDB 纪录已攀过的网站
2.config.properties 可选择不进行下载(單存資料蒐集, 可分析數據!?)
3.搜寻页面可查看数据库资料```
目前需要方向, 還未實作的功能:
1.Java deep learning 对一些资料做出分析整理(这里完全没有概念...预计要 2~3 周时间才能做到了)
2.如上提到的 proxy request(如何實作還不清楚)