文章詳情頁(yè)
python - 請(qǐng)教如何爬取簡(jiǎn)書某一時(shí)間段發(fā)帖。
瀏覽:144日期:2022-07-11 10:45:01
問題描述
我想爬取簡(jiǎn)書在某一時(shí)間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語法
限定日期
觀察大約有 70 個(gè)帖子
google 的 site 語法
限定日期
觀察大約有 120 個(gè)帖子
實(shí)現(xiàn):用 Python 直接請(qǐng)求搜索的結(jié)果,然后把得到的網(wǎng)址重定向一下得到真正的簡(jiǎn)書網(wǎng)址,然后對(duì)真正的網(wǎng)址進(jìn)行請(qǐng)求
問題
用這種方法得到的結(jié)果是否靠譜?請(qǐng)問有更靠譜的方法嗎?
用 Google 還是用百度呢?
問題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來用,不一定要限制在某個(gè)搜索引擎接口上。我們有隊(duì)友搜索某些話題就是這么干的,因?yàn)橛械木W(wǎng)站站內(nèi)沒提供滿足需求的搜索方式,這個(gè)時(shí)候也只有借助搜索引擎了。不過通過搜索引擎搜索的方式信息可能不全面,robots協(xié)議規(guī)定了不能搜索的,搜索引擎不會(huì)收錄
相關(guān)文章:
1. angular.js - angular中的a標(biāo)簽不起作用2. android - Genymotion 微信閃退 not find plugin.location_google.GoogleProxyUI3. python3.x - python連oanda的模擬交易api獲取json問題第五問4. springboot中不能獲取post請(qǐng)求參數(shù)的解決方法5. php怎么用isMobile()函數(shù)識(shí)別pc端移動(dòng)端自動(dòng)跳轉(zhuǎn)6. 表單內(nèi)容含有多選、單選和下拉怎么通過ajax傳到數(shù)據(jù)庫(kù),(請(qǐng)把控制器部分和model部分也帶上)7. sql語句如何按or排序取出記錄8. 數(shù)據(jù)表里沒數(shù)據(jù)顯示9. php 01==1 嗎?10. 關(guān)于Apache無法啟動(dòng)的程序的方式是怎么解決的
排行榜

熱門標(biāo)簽