python分布式爬蟲(chóng)中消息隊(duì)列知識(shí)點(diǎn)詳解
當(dāng)排隊(duì)等待人數(shù)過(guò)多的時(shí)候,我們需要設(shè)置一個(gè)等待區(qū)防止秩序混亂,同時(shí)再有新來(lái)的想要排隊(duì)也可以呆在這個(gè)地方。那么在python分布式爬蟲(chóng)中,消息隊(duì)列就相當(dāng)于這樣的一個(gè)區(qū)域,爬蟲(chóng)要進(jìn)入這個(gè)區(qū)域找尋自己想要的資源,當(dāng)然這個(gè)是一定的次序的,不然數(shù)據(jù)獲取就會(huì)出現(xiàn)重復(fù)。就下來(lái)我們就python分布式爬蟲(chóng)中的消息隊(duì)列進(jìn)行詳細(xì)解釋,小伙伴們可以進(jìn)一步了解一下。
實(shí)現(xiàn)分布式爬取的關(guān)鍵是消息隊(duì)列,這個(gè)問(wèn)題以消費(fèi)端為視角更容易理解。你的爬蟲(chóng)程序部署到很多臺(tái)機(jī)器上,那么他們?cè)趺粗雷约阂朗裁茨兀靠傄幸粋€(gè)地方存儲(chǔ)了他們需要爬取的url吧,這樣他們才能工作。
假設(shè)有1萬(wàn)個(gè)url需要爬取,而你有100個(gè)爬蟲(chóng)程序部署在10臺(tái)機(jī)器上,每臺(tái)10個(gè)爬蟲(chóng)程序在運(yùn)行,一個(gè)url被分給爬蟲(chóng)程序后,其他爬蟲(chóng)不能再獲得這個(gè)url,不然,就重復(fù)爬取了,理解吧,分布式爬蟲(chóng)的關(guān)鍵是怎么把任務(wù)分給這些爬蟲(chóng)。
有些促銷活動(dòng)的現(xiàn)場(chǎng)會(huì)進(jìn)行抽獎(jiǎng)活動(dòng),工作人員捧著一個(gè)透明的箱子,參與活動(dòng)的人從箱子的小口處把手伸進(jìn)去隨機(jī)拿出一張折疊的紙條,這種模式與消息隊(duì)列十分相似。消息隊(duì)列就好比這個(gè)抽獎(jiǎng)的箱子,消費(fèi)端的爬蟲(chóng)程序就好比參與活動(dòng)的顧客,爬蟲(chóng)從消息隊(duì)列里拿出一個(gè)url任務(wù),然后進(jìn)行爬取,不同于抽獎(jiǎng)活動(dòng)時(shí)一個(gè)人只能拿一次,分布式爬蟲(chóng)允許爬蟲(chóng)在結(jié)束一個(gè)爬蟲(chóng)任務(wù)后繼續(xù)從消息隊(duì)列里獲取任務(wù)。
使用redis的隊(duì)列做消息隊(duì)列
如果你只是簡(jiǎn)單的寫一個(gè)分布式爬蟲(chóng),那么使用redis的隊(duì)列就可以了,它完全可以作為消息隊(duì)列來(lái)使用,下面的代碼是生產(chǎn)端的代碼示例
import redisr = redis.Redis(host=’127.0.0.1’, port=6379,password=’yourpassword’, db=1)# 生產(chǎn)10個(gè)url任務(wù)for i in range(10): r.lpush(’url_queue’, i)
相信看完以上的代碼示例后,小伙伴們已經(jīng)學(xué)會(huì)用redis創(chuàng)造一個(gè)消息隊(duì)列,用來(lái)方便爬蟲(chóng)的獲取數(shù)據(jù)。本篇是以生產(chǎn)段的角度寫的代碼
到此這篇關(guān)于python分布式爬蟲(chóng)中消息隊(duì)列知識(shí)點(diǎn)詳解的文章就介紹到這了,更多相關(guān)python分布式爬蟲(chóng)中的消息隊(duì)列是什么內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. 淺談SpringMVC jsp前臺(tái)獲取參數(shù)的方式 EL表達(dá)式2. 關(guān)于Ajax跨域問(wèn)題及解決方案詳析3. jsp+servlet簡(jiǎn)單實(shí)現(xiàn)上傳文件功能(保存目錄改進(jìn))4. 刪除docker里建立容器的操作方法5. JavaScript實(shí)現(xiàn)組件化和模塊化方法詳解6. .Net Core和RabbitMQ限制循環(huán)消費(fèi)的方法7. ASP.NET MVC遍歷驗(yàn)證ModelState的錯(cuò)誤信息8. SpringMVC+Jquery實(shí)現(xiàn)Ajax功能9. jsp網(wǎng)頁(yè)實(shí)現(xiàn)貪吃蛇小游戲10. ASP中if語(yǔ)句、select 、while循環(huán)的使用方法
