文章詳情頁

python 爬取國內小說網站

瀏覽：5日期：2022-06-17 11:08:47

目錄原理先行實踐篇完整代碼原理先行

作為一個資深的小說愛好者，國內很多小說網站如出一轍，什么 🖊*閣啊等等，大都是 get 請求返回 html 內容，而且會有標志性的<dl><dd>等標簽。所以大概的原理，就是先 get 請求這個網站，然后對獲取的內容進行清洗，寫進文本里面，變成一個 txt，導入手機，方便看小說。

實踐篇

之前踩過一個坑，一開始我看了幾頁小說，大概小說的內容網站是https://www.xxx.com/小說編號/章節編號.html，一開始看前幾章，我發現章節編號是連續的，于是我一開始想的就是記住起始章節編號，然后在循環的時候章節編號自增就行，后面發現草率了，可能看個 100 章之后，章節列表會出現斷層現象，這個具體為啥還真不知道，按理說小說編號固定，可以算是一個數據表，那里面的章節編號不就是一個自增 id 就完了嘛？有懂王可以科普一下！所以這里要先獲取小說的目錄列表，并把目錄列表洗成一個數組方便我們后期查找！getList.py文件：

定義一個請求書簽的方法

# 請求書簽地址def req(): url = 'https://www.24kwx.com/book/4/4020/' strHtml = requests.get(url) return strHtml.text

將獲取到的內容提取出（id:唯一值/或第 X 章小說）(name:小說的章節名稱)（key:小說的章節 id）

# 定義一個章節對象class Xs(object): def __init__(self,id,key,name):self._id = idself._key = keyself._name = name @property def id(self):self._id @property def key(self):self._key @property def name(self):self._name def getString(self):return ’id:%s,name:%s,key:%s’ %(self._id,self._name,self._key)# 轉換成書列表def tranceList(): key = 0 name = '' xsList = [] idrule = r’/4020/(.+?).html’ keyrule = r’第(.+?)章’ html = req() html = re.split('</dt>',html)[2] html = re.split('</dl>',html)[0] htmlList = re.split('</dd>',html) for i in htmlList:i = i.strip()if(i): # 獲取id id = re.findall(idrule,i)[0] lsKeyList = re.findall(keyrule,i) # 如果有章節 if len(lsKeyList) > 0 :key = int(lsKeyList[0])lsname = re.findall(r’章(.+?)</a>’,i) else :key = key + 1 # 獲取名字 # lsname = re.findall(r’.html'>(.+?)</a>’,i)[0] # name = re.sub(’，’,’ ’, lsname, flags=re.IGNORECASE) name = re.findall(r’.html'>(.+?)</a>’,i)[0] xsobj = Xs(id,key,name) xsList.append(xsobj.getString()) writeList(xsList)

注意一下我：如果你從別的語言轉 py，第一次寫object對象可能會比較懵，沒錯因為他的object是一個class，這里我創建的對象就是{id,key,name}但是你寫入 txt 的時候還是要getString，所以后面想想我直接寫個{id:xxx,name:xxx,key:xxx}的字符串不就完了，還弄啥class,后面還是想想給兄弟盟留點看點，就留著了

最后寫入 txt 文件

# 寫入到文本def writeList(list): f = open('xsList.txt',’w’,encoding=’utf-8’) # 這里不能寫list，要先轉字符串 TypeError: write() argument must be str, not list f.write(’n’.join(list)) print(’寫入成功’)# 大概寫完的txt是這樣的id:3798160,name:第1章孫子，我是你爺爺,key:1id:3798161,name:第2章孫子，等等我！,key:2id:3798162,name:第3章天上掉下個親爺爺,key:3id:3798163,name:第4章超級大客戶,key:4id:3798164,name:第5章一張退婚證明,key:5

ok ! Last one這里已經寫好了小說的目錄，那我們就要讀取小說的內容，同理

先寫個請求

# 請求內容地址def req(id): url = 'https://www.24kwx.com/book/4/4020/'+id+'.html' strHtml = requests.get(url) return strHtml.text

讀取我們剛剛保存的目錄

def getList(): f = open('xsList.txt',’r’, encoding=’utf-8’) # 這里按行讀取,讀取完后line是個數組 line = f.readlines() f.close() return line

定義好一個清洗數據的規則

contextRule = r’<div class='content'>(.+?)<script>downByJs();</script>’titleRule = r’<h1>(.+?)</h1>’def getcontext(objstr): xsobj = re.split(',',objstr) id = re.split('id:',xsobj[0])[1] name = re.split('name:',xsobj[1])[1] html = req(id) lstitle = re.findall(titleRule,html) title = lstitle[0] if len(lstitle) > 0 else name context = re.split(’<div class='showtxt'>’,html)[1] context = re.split(’</div>’,context)[0] context = re.sub(’ |r|n’,’’,context) textList = re.split(’<br />’,context) textList.insert(0,title) for item in textList :writeTxt(item) print(’%s--寫入成功’%(title))

再寫入文件

def writeTxt(txt): if txt :f = open('nr.txt',’a’,encoding='utf-8')f.write(txt+’n’)

最后當然是串聯起來啦

def getTxt(): # 默認參數配置 startNum = 1261 # 起始章節 endNum = 1300 # 結束章節 # 開始主程序 f = open('nr.txt',’w’,encoding=’utf-8’) f.write('') if endNum < startNum:print(’結束條數必須大于開始條數’)return allList = getList() needList = allList[startNum-1:endNum] for item in needList:getcontext(item)time.sleep(0.2) print('全部爬取完成')完整代碼

getList.py

import requestsimport re# 請求書簽地址def req(): url = 'https://www.24kwx.com/book/4/4020/' strHtml = requests.get(url) return strHtml.text# 定義一個章節對象class Xs(object): def __init__(self,id,key,name):self._id = idself._key = keyself._name = name @property def id(self):self._id @property def key(self):self._key @property def name(self):self._name def getString(self):return ’id:%s,name:%s,key:%s’ %(self._id,self._name,self._key)# 轉換成書列表def tranceList(): key = 0 name = '' xsList = [] idrule = r’/4020/(.+?).html’ keyrule = r’第(.+?)章’ html = req() html = re.split('</dt>',html)[2] html = re.split('</dl>',html)[0] htmlList = re.split('</dd>',html) for i in htmlList:i = i.strip()if(i): # 獲取id id = re.findall(idrule,i)[0] lsKeyList = re.findall(keyrule,i) # 如果有章節 if len(lsKeyList) > 0 :key = int(lsKeyList[0])lsname = re.findall(r’章(.+?)</a>’,i) else :key = key + 1 # 獲取名字 # lsname = re.findall(r’.html'>(.+?)</a>’,i)[0] # name = re.sub(’，’,’ ’, lsname, flags=re.IGNORECASE) name = re.findall(r’.html'>(.+?)</a>’,i)[0] xsobj = Xs(id,key,name) xsList.append(xsobj.getString()) writeList(xsList)# 寫入到文本def writeList(list): f = open('xsList.txt',’w’,encoding=’utf-8’) # 這里不能寫list，要先轉字符串 TypeError: write() argument must be str, not list f.write(’n’.join(list)) print(’寫入成功’)def main(): tranceList()if __name__ == ’__main__’: main()

writeTxt.py

import requestsimport reimport time# 請求內容地址def req(id): url = 'https://www.24kwx.com/book/4/4020/'+id+'.html' strHtml = requests.get(url) return strHtml.textdef getList(): f = open('xsList.txt',’r’, encoding=’utf-8’) # 這里按行讀取 line = f.readlines() f.close() return linecontextRule = r’<div class='content'>(.+?)<script>downByJs();</script>’titleRule = r’<h1>(.+?)</h1>’def getcontext(objstr): xsobj = re.split(',',objstr) id = re.split('id:',xsobj[0])[1] name = re.split('name:',xsobj[1])[1] html = req(id) lstitle = re.findall(titleRule,html) title = lstitle[0] if len(lstitle) > 0 else name context = re.split(’<div class='showtxt'>’,html)[1] context = re.split(’</div>’,context)[0] context = re.sub(’ |r|n’,’’,context) textList = re.split(’<br />’,context) textList.insert(0,title) for item in textList :writeTxt(item) print(’%s--寫入成功’%(title))def writeTxt(txt): if txt :f = open('nr.txt',’a’,encoding='utf-8')f.write(txt+’n’)def getTxt(): # 默認參數配置 startNum = 1261 # 起始章節 endNum = 1300 # 結束章節 # 開始主程序 f = open('nr.txt',’w’,encoding=’utf-8’) f.write('') if endNum < startNum:print(’結束條數必須大于開始條數’)return allList = getList() needList = allList[startNum-1:endNum] for item in needList:getcontext(item)time.sleep(0.2) print('全部爬取完成') def main(): getTxt()if __name__ == '__main__': main()

以上就是python 爬取國內小說網站的詳細內容，更多關于python 爬取小說網站的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：python 爬取天氣網衛星圖片下一條：Pandas中時間序列的處理大全

相關文章：

1. Ajax對xml信息的接收和處理操作實例分析2. Jsp中request的3個基礎實踐3. Ajax返回值類型與用法實例分析4. XML入門精解之結構與語法5. 如何使用CSS3畫出一個叮當貓6. 淺談SpringMVC jsp前臺獲取參數的方式 EL表達式7. vue跳轉頁面常用的幾種方法匯總8. python如何寫出表白程序9. Python基于os.environ從windows獲取環境變量10. 解析python 中/ 和 % 和 //（地板除）

排行榜

					
					Ajax對xml信息的接收和處理操作實例分析
Jsp中request的3個基礎實踐
Ajax返回值類型與用法實例分析
XML入門精解之結構與語法
如何使用CSS3畫出一個叮當貓
淺談SpringMVC jsp前臺獲取參數的方式 EL表達式
PHP擴展之URL編碼、解碼及解析——URLs
vue項目打包為APP,靜態資源正常顯示,但API請求不到數據的操作
Python基于os.environ從windows獲取環境變量
IDEA一鍵完成格式化、去除無用引用、編譯的操作
JS實現簡單打字測試