文章詳情頁

基于Python快速處理PDF表格數據

瀏覽：102日期：2022-07-23 10:50:35

我們有下面一張PDF格式存儲的表格，現在需要使用Python將它提取出來。

基于Python快速處理PDF表格數據

使用Python提取表格數據需要使用pdfplumber模塊，打開CMD，安裝代碼如下：

pip install pdfplumber

安裝完之后，將需要使用的模塊導入

import pdfplumberimport pandas as pd

然后打開PDF文件

# 使用with語句打開pdf文件with pdfplumber.open('D:pythoncaiyq.pdf') as pdf: # pages[0]表示取第1頁 page = pdf.pages[0]

我們來打印輸出下獲取到的文本，這句語句只是幫我們驗證下是否成功獲取到PDF里的內容

print(page.extract_text())

執行的結果如下，看來是成功了

基于Python快速處理PDF表格數據

然后可以使用extract_table()函數獲取表格，如果有多個表格，可以使用extract_tables()函數，就是多了個s

d1=page.extract_table()

執行代碼后，將得到一個列表，還不是數據框

基于Python快速處理PDF表格數據

所以最后一步就是將列表轉為數據框就可以了，代碼如下：

df = pd.DataFrame(d1[1:], columns=d1[0])

執行代碼后，將得到了df數據框

基于Python快速處理PDF表格數據

有幾個注意事項要提醒下：

1.pdf表格中的數據，對于同一個數據或內容，不要有換行，如果換行，可能被識別為2個數據；

2.pdf中的表格一定要有邊框，沒有邊框的話，否則使用extract_table()函數就無法獲取表格數據，extract_text()還是可以獲取文本信息的，不要問我是怎么知道的，說多了都是淚。

我們現在有一份PDF數據，里面有三頁，每頁都有一樣數據結構但數據不同的數據表，現在需要使用Python將它批量提取出來。

基于Python快速處理PDF表格數據

有了上回經驗，我們就直接上代碼：

import pdfplumberimport pandas as pd # 創建一個空數據框df = pd.DataFrame() # 使用with語句打開pdf文件with pdfplumber.open('D:pythoncai5.pdf') as pdf: # 使用for循環遍歷每個pages for page in pdf.pages: # 取出當前頁表格，結果為列表 d=page.extract_table() # 將列表轉為數據框 df1 = pd.DataFrame(d[1:], columns=d[0]) #添加至df數據框中 df = df.append(df1)

執行代碼后，將得到了df數據框

基于Python快速處理PDF表格數據

是不是so easy 呢？

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python ADF 單位根檢驗如何查看結果的實現下一條：使用python實現時間序列白噪聲檢驗方式

相關文章：

1. xml文件的結構解讀第1/2頁2. jsp實現局部刷新頁面、異步加載頁面的方法3. Jsp中request的3個基礎實踐4. SSM框架整合JSP中集成easyui前端ui項目開發示例詳解5. python線性插值解析6. PHP連接MySQL數據庫操作代碼實例解析7. Python requests模塊session代碼實例8. JSP 中request與response的用法詳解9. 詳解java CountDownLatch和CyclicBarrier在內部實現和場景上的區別10. python文件讀取失敗怎么處理

排行榜

					
					xml文件的結構解讀第1/2頁
jsp實現局部刷新頁面、異步加載頁面的方法
Jsp中request的3個基礎實踐
SSM框架整合JSP中集成easyui前端ui項目開發示例詳解
Python requests模塊session代碼實例
詳解java CountDownLatch和CyclicBarrier在內部實現和場景上的區別
為什么PHP令人不爽（對于大型系統）
基于Spring AOP proxyTargetClass的行為表現總結
python線性插值解析
python文件讀取失敗怎么處理
JSP 中request與response的用法詳解