文章詳情頁

Python爬蟲的亂碼問題？

瀏覽：141日期：2022-07-30 16:40:27

問題描述

使用python實(shí)現(xiàn)模擬登陸并爬取返回頁面的時(shí)候出現(xiàn)了亂碼，目標(biāo)網(wǎng)頁的編碼使用utf-8 Python爬蟲的亂碼問題？

相關(guān)代碼：

#coding=utf-8import urllibimport urllib2headers={ ’Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate’, ’Accept-Language’:’zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, ’Connection’:’keep-alive’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36’}payload={ ’_eventId’:’submit’, ’lt’:’_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF’, ’password’:’’, ’submit’:’登錄’, ’username’:’’}payload=urllib.urlencode(payload)request = urllib2.Request(posturl, payload, headers)print requestresponse = urllib2.urlopen(request)text = response.read()print text

控制臺(tái)輸出信息： Python爬蟲的亂碼問題？

第一次遇見這種亂碼比較懵逼

問題解答

回答1：

urllib2沒有處理壓縮的問題，你要使用gzip解壓，比如這樣

from StringIO import StringIOimport gzipif response.info().get(’Content-Encoding’) == ’gzip’: buf = StringIO(text) f = gzip.GzipFile(fileobj=buf) data = f.read()

總結(jié)urllib2比較底層，建議使用requests

Python 編程

上一條：http - python requests上傳文件問題下一條：elasticsearch - 在python函數(shù)執(zhí)行過程中，如何判斷并處理其中一條語句的返回值？

相關(guān)文章：

1. 如何解決docker宿主機(jī)無法訪問容器中的服務(wù)？2. docker 下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？3. javascript - 請(qǐng)指條明路，angular的$event，在select中卻是undefined？4. 如何修改vim插件vimwiki中Vimwiki2HTML的一些細(xì)節(jié)5. javascript - JS事件委托問題6. javascript - 關(guān)于jquery的remove()方法7. JavaScript中怎么理解=、==和===8. java - Spring事務(wù)回滾問題9. javascript - vue.js如何遞歸渲染組件.10. mongodb - Mongo java驅(qū)動(dòng)中，有沒有封裝好的函數(shù)，可以直接取到文檔中的某個(gè)具體的值，而不是一個(gè)文檔？或者有沒有方法實(shí)現(xiàn)？？

排行榜

					
					如何解決docker宿主機(jī)無法訪問容器中的服務(wù)？
docker  下面創(chuàng)建的IMAGE 他們的 ID 一樣？這個(gè)是怎么回事？？？？
mongodb - Mongo java驅(qū)動(dòng)中，有沒有封裝好的函數(shù)，可以直接取到文檔中的某個(gè)具體的值，而不是一個(gè)文檔？或者有沒有方法實(shí)現(xiàn)？？
如何修改vim插件vimwiki中Vimwiki2HTML的一些細(xì)節(jié)
javascript - 請(qǐng)指條明路，angular的$event，在select中卻是undefined？
java - Spring事務(wù)回滾問題
css - 關(guān)于angular頁面打印問題
javascript - JS事件委托問題
JavaScript中怎么理解=、==和===
javascript - vue.js如何遞歸渲染組件.
javascript - 關(guān)于jquery的remove()方法
				

熱門標(biāo)簽

久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

Python爬蟲的亂碼問題？