久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁技術(shù)文章
文章詳情頁

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

瀏覽:109日期:2022-06-15 17:22:21
scrapy 框架結(jié)構(gòu)

思考

scrapy 為什么是框架而不是庫? scrapy是如何工作的?項目結(jié)構(gòu)

在開始爬取之前,必須創(chuàng)建一個新的Scrapy項目。進(jìn)入您打算存儲代碼的目錄中,運行下列命令:

注意:創(chuàng)建項目時,會在當(dāng)前目錄下新建爬蟲項目的目錄。

這些文件分別是:

scrapy.cfg:項目的配置文件 quotes/:該項目的python模塊。之后您將在此加入代碼 quotes/items.py:項目中的item文件 quotes/middlewares.py:爬蟲中間件、下載中間件(處理請求體與響應(yīng)體) quotes/pipelines.py:項目中的pipelines文件 quotes/settings.py:項目的設(shè)置文件 quotes/spiders/:放置spider代碼的目錄Scrapy原理圖

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

各個組件的介紹

1.Engine。引擎,處理整個系統(tǒng)的數(shù)據(jù)流處理、觸發(fā)事務(wù),是整個框架的核心。

2.ltem。項目,它定義了爬取結(jié)果的數(shù)據(jù)結(jié)構(gòu),爬取的數(shù)據(jù)會被賦值成該ltem對象。

3.Scheduler。調(diào)度器,接受引擎發(fā)過來的請求并將其加入隊列中,在引擎再次請求的時候?qū)⒄埱筇峁┙o引擎。

4.Downloader。下載器,下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給蜘蛛。

5.Spiders。蜘蛛,其內(nèi)定義了爬取的邏輯和網(wǎng)頁的解析規(guī)則,它主要負(fù)責(zé)解析響應(yīng)并生成提結(jié)果和新的請求。

6.Item Pipeline。項目管道,負(fù)責(zé)處理由蜘蛛從網(wǎng)頁中抽取的項目,它的主要任務(wù)是清洗、驗證和存儲數(shù)據(jù)。

7.Downloader Middlewares。下載器中間件,位于引擎和下載器之間的鉤子框架,主要處理引擎與下載器之間的請求及響應(yīng)。

8.Spider Middlewares。蜘蛛中間件,位于引擎和蜘蛛之間的鉤子框架,主要處理蜘蛛輸入的響應(yīng)和輸出的結(jié)果及新的請求。

Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)

數(shù)據(jù)的流動 Scrapy Engine(引擎):負(fù)責(zé)Spider、ltemPipeline、Downloader、Scheduler中間的通訊,信號、數(shù)據(jù)傳遞等。 Scheduler(調(diào)度器):負(fù)責(zé)接受引擎發(fā)送過來的Request請求,并按照一定的方式進(jìn)行整理排列,入隊,當(dāng)引擎需要時,交還給引擎。 Downloader(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理, Spider(爬蟲)?負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù),獲取ltem字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器), ltem Pipeline(管道):負(fù)責(zé)處理Spider中獲取到的ltem,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過濾、存儲等)的地方. Downloader Middlewares(下載中間件):你可以當(dāng)作是一個可以自定義擴(kuò)展下載功能的組件。 Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴(kuò)展和操作引擎和Spider中間通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)

到此這篇關(guān)于Python爬蟲基礎(chǔ)之簡單說一下scrapy的框架結(jié)構(gòu)的文章就介紹到這了,更多相關(guān)scrapy的框架結(jié)構(gòu)內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 成人av高清在线观看 | 凹凸日日摸日日碰夜夜 | 久久精品网 | 亚洲一区二区三区久久久 | 亚洲 中文 欧美 日韩 在线观看 | 欧美福利网址 | 欧美日本国产一区 | 中文字幕一区在线观看视频 | 亚洲网在线| 日韩精品视频免费在线观看 | 久久亚洲综合 | 成人网av| 色综合欧美 | 黄色毛片视频网站 | 在线色网 | 中文字幕第18页 | 成人性视频免费网站 | 欧美日韩第一页 | 国产综合精品一区二区三区 | 国产精品一区一区 | 国产精品美女久久久 | 日本免费电影一区 | 99视频| 黑人av | 国精产品一区二区三区黑人免费看 | 日本一区二区电影 | 国产偷录视频叫床高潮对白 | 国产一区二区在线观看视频 | 91精品国产综合久久久久久丝袜 | 999国产一区二区三区四区 | 欧美在线观看黄 | 欧美 日韩 国产 一区 | 特级av | 欧美日韩精品一区二区三区在线观看 | 精品久久国产老人久久综合 | 久久av综合| 国产午夜精品一区二区三区 | 91九色porny首页最多播放 | 三级视频在线观看 | 国产精品日韩一区二区 | 亚洲一区 日韩精品 中文字幕 |