解決python 使用openpyxl讀寫大文件的坑
由于需要處理xlsx類型的文件,我使用了openpyxl來(lái)處理,然而文件比較大,大約有60多MB。讀文件的時(shí)候雖然慢了一點(diǎn),但還是能夠讀出來(lái),但是當(dāng)我想寫入時(shí)卻報(bào)錯(cuò)了。
顯示設(shè)備沒(méi)有多余的空間,百度了一下,發(fā)現(xiàn)有不少關(guān)于openpyxl讀寫大文件的問(wèn)題。總結(jié)來(lái)看,解決方案主要有以下兩種,當(dāng)然,我兩種都用上了。
手動(dòng)釋放內(nèi)存del wb, wsgc.collect()
這一招還算有用,在讀完文件后可以看到內(nèi)存占用明顯下降了一點(diǎn)。
安裝lxml使用命令·pip install lxml安裝依賴
這個(gè)依賴并非必須安裝的依賴,但是可以使openpyxl流式處理數(shù)據(jù)。
總之使用了以上兩種方案后,終于可以成功處理數(shù)據(jù)了。
補(bǔ)充:openpyxl讀取大文件的若干問(wèn)題
需要編寫一個(gè)EXCEL文件對(duì)比工具
excel文件通常8MB,300張左右的表,每張表實(shí)際范圍為ZZ500.
使用openpyxl對(duì)表格進(jìn)行遍歷,完成兩個(gè)表之間的對(duì)比,找出公式不相同的單元格編程中遇到若干問(wèn)題
1、讀取時(shí)報(bào)錯(cuò),錯(cuò)誤代碼忘記了,原因是通過(guò)數(shù)組的方式讀取了一個(gè)不存在的數(shù)值如 SS[’AA’],這個(gè)數(shù)值沒(méi)有定義,因此報(bào)錯(cuò)(PHP直接返回空值),使用SS.get(’AA’,null)進(jìn)行修改
D:Python34Libsite-packagesopenpyxlreaderstyle.py
164: format_code = builtin_formats.get(numFmtId,’General’)2、讀取時(shí)內(nèi)存占用過(guò)大
基本就是內(nèi)存占用了2G以上以后,程序就不動(dòng)了,原因是某些表格的表格范圍識(shí)別的非常大,最大可為ZZ65535
通過(guò)研究,代碼進(jìn)行了如下修改
1:使用X64版本,X64版本在運(yùn)行時(shí),可以運(yùn)行4G以內(nèi)內(nèi)存占用的程序,比2G大一倍,能夠完成大部分表格的讀取,如ZZ5000,但是遇到ZZ65535范圍的表格,內(nèi)存占用達(dá)到了4G+,也會(huì)導(dǎo)致程序停止運(yùn)行.
2:限制最大單元格遍歷范圍,最大限制為ZZ5000,能夠有效降低內(nèi)存占用
3:定時(shí)重新讀取EXCEL文件(如每對(duì)比30張表),釋放內(nèi)存,(Python內(nèi)存釋放真的很痛苦,全部是指針引用,A=B,DEL A;是不會(huì)釋放空間的,要DEL B才行).
4:雖然openpyxl讀取文件時(shí)有個(gè)只讀模式(性能模式),但是速度實(shí)在是太慢了.
通過(guò)代碼修改,現(xiàn)在完成文件對(duì)比所用的內(nèi)存通常在2G以內(nèi)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章:
1. Nginx+php配置文件及原理解析2. JSP數(shù)據(jù)交互實(shí)現(xiàn)過(guò)程解析3. vue使用webSocket更新實(shí)時(shí)天氣的方法4. 解決啟動(dòng)django,瀏覽器顯示“服務(wù)器拒絕訪問(wèn)”的問(wèn)題5. Yii2.0引入CSS,JS文件方法6. 討論CSS中的各類居中方式7. Python生成并下載文件后端代碼實(shí)例8. 如何使用CSS3畫出一個(gè)叮當(dāng)貓9. python使用selenium爬蟲知乎的方法示例10. ASP.NET MVC獲取多級(jí)類別組合下的產(chǎn)品
