文章詳情頁
網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?
瀏覽:146日期:2022-09-03 13:50:21
問題描述
用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?
問題解答
回答1:首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。
其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。
回答2:做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。
回答3:就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的
相關文章:
1. java servlet后臺導出上萬條數據到excel,太慢!求解2. javascript - 一排三個框,各個框的間距是15px,距離外面的白框間距也是15px,這個css怎么寫?3. mysql函數unix_timestamp如何處理1970.1.1以前的數據?4. 怎樣使留言的數據與登錄的用戶名,密碼保持一致(在數據庫上是一行的)。5. mysql money 插入數據為什么報錯?6. java - 關于使用POI解析excel中的時間格的值7. html - 急求,能否用flex或者高端點的CSS來布局這個圖呢?不想用浮動或定位了8. css如何實現兩欄布局,左邊固定寬度,右邊寬度自適應,且高度和瀏覽器當前高度一致?9. javascript - vue-cli 發布之后,如何在接口地址中去掉在開發環境中設置的跨域proxyTable配置10. 請問永久和臨時重定向有什么區別
排行榜
