久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:121日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 久久精品色欧美aⅴ一区二区 | 国产精品亚洲综合 | 成人激情视频在线免费观看 | 91免费在线视频 | 伊人操操 | 亚洲精品女优 | 日本a视频| 日韩6699人妻熟女毛片 | jizz国产免费| www.久久久| 国产v日产∨综合v精品视频 | av黄色一级片 | 伊人草 | 天堂福利影院 | 色99在线| 精品美女久久久 | 特级理论片 | 久久网站免费视频 | 国产麻豆乱码精品一区二区三区 | 国产中文字幕在线观看 | 久久精品中文 | 欧美性一区二区三区 | 国精产品一区二区三区 | 中文字幕_第2页_高清免费在线 | 亚洲视频在线观看 | 99精品欧美一区二区三区综合在线 | 国产一区视频在线 | 亚洲香蕉在线观看 | 日韩精品一区二区三区第95 | 韩国三级中文字幕hd久久精品 | 另类国产ts人妖高潮系列视频 | 国产中文字幕在线观看 | 久久首页 | 亚洲精品中文字幕 | 欧美高清一区 | 国产精品高潮呻吟 | 国产精久 | 亚洲人成人一区二区在线观看 | 中文字幕在线精品 | 中文字幕一区在线观看视频 | 日本二区在线播放 |