久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁技術(shù)文章
文章詳情頁

Python通過正則庫爬取淘寶商品信息代碼實例

瀏覽:2日期:2022-08-04 18:12:50

使用正則庫爬取淘寶商品的商品信息,首先我們需要確定想要爬取的對象

我們在淘寶里搜索“python”,出來的結(jié)果

Python通過正則庫爬取淘寶商品信息代碼實例

從url連接中可以得到搜索商品的關(guān)鍵字是“q=”,所以我們要用的起始url為:https://s.taobao.com/search?q=python

然后翻頁,經(jīng)過對比發(fā)現(xiàn),翻頁后,變化的關(guān)鍵字是s,每次翻頁,s便以44的倍數(shù)增長(可以數(shù)一下每頁顯示的商品數(shù)量,剛好是44)所以可以根據(jù)關(guān)鍵字“s=”,來設(shè)置爬取的深度(爬取多少頁)

右鍵查看源碼,商品名稱可能的關(guān)鍵字是“title”和“raw_title”,進一步多看幾個商品的名稱,發(fā)現(xiàn)選取“raw_title”比較合適;商品價格自然就是“view_price”(通過比對淘寶商品展示頁面);所以商品名稱和商品價格分別是以'raw_title':'名稱'和'view_price':'價格',這樣的鍵/值對的形式展示的。

# coding:utf-8import requestsimport regoods = ’水杯’url = ’https://s.taobao.com/search?q=’ + goodsr = requests.get(url=url, timeout=10)html = r.texttlist = re.findall(r’'raw_title':'.*?'’, html) # 正則提取商品名稱plist = re.findall(r’'view_price':'[d.]*'’, html) # 正則提示商品價格print(tlist)print(plist)print(type(plist)) # 正則表達式提取出的商品名稱和商品價格都是以列表形式存儲數(shù)據(jù)的

利用for循環(huán),把每個商品的名稱和價格組成一個列表,然后把這寫列表再追加到一個大列表中:

goodlist = []for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數(shù)簡單說就是用于去掉字符串的引號 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price]) # 把每個商品的名稱和價格組成一個小列表,然后把所有商品組成的列表追加到一個大列表中 print(goodlist)

大概的思路就是這樣的。

def get_html(url): '''獲取源碼html''' try: r = requests.get(url=url, timeout=10) r.encoding = r.apparent_encoding return r.text except: print('獲取失敗')def get_data(html, goodlist): '''使用re庫解析商品名稱和價格 tlist:商品名稱列表 plist:商品價格列表''' tlist = re.findall(r’'raw_title':'.*?'’, html) plist = re.findall(r’'view_price':'[d.]*'’, html) for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函數(shù)簡單說就是用于去掉字符串的引號 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price])def write_data(list, num): # with open(’E:/Crawler/case/taob2.txt’, ’a’) as data: # print(list, file=data) for i in range(num): # num控制把爬取到的商品寫進多少到文本中 u = list[i] with open(’E:/Crawler/case/taob.txt’, ’a’) as data: print(u, file=data)def main(): goods = ’水杯’ depth = 3 # 定義爬取深度,即翻頁處理 start_url = ’https://s.taobao.com/search?q=’ + goods infoList = [] for i in range(depth): try: url = start_url + ’&s=’ + str(44 * i) # 因為淘寶顯示每頁44個商品,第一頁i=0,一次遞增 html = get_html(url) get_data(html, infoList) except: continue write_data(infoList, len(infoList))if __name__ == ’__main__’: main()

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網(wǎng)。

標簽: 淘寶 Python
相關(guān)文章:
主站蜘蛛池模板: 欧美日韩中文 | 亚洲精品久久久狠狠狠爱 | 久久成人免费视频 | 欧美日韩黄 | 成人性视频在线 | jizz欧美大片 | 在线国产一区 | 国产成人精品一区二区三区四区 | 中文字幕一区二区三区日韩精品 | 亚洲伊人中文字幕 | 欧美日日 | 欧美激情一区二区三区 | 亚洲v日韩v综合v精品v | 夜夜夜操 | 久久精品国产v日韩v亚洲 | 日韩a级免费视频 | 欧美日黄 | 国产成人免费在线 | 青青久视频 | 国产99久久精品 | 欧美一区二区三区在线 | 久久99精品久久久久久琪琪 | 日韩精品免费视频 | 成人精品一区二区三区 | 国产www在线 | 欧美成年网站 | 国产精品美女久久久久aⅴ国产馆 | 香蕉大人久久国产成人av | 久久精品一区二区三区四区 | 午夜视频网址 | 99国产精品久久 | 成人小视频在线观看 | 精品视频99 | 一区二区观看 | 欧洲精品在线观看 | 国产一区在线视频 | 日韩www | 亚洲人视频 | 成人国产在线 | 国产精品久久久久毛片软件 | 精品国产黄a∨片高清在线 99热婷婷 |