久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的實(shí)現(xiàn)

瀏覽:25日期:2022-07-13 08:43:52

PDF(Portable Document Format),中文名稱便攜文檔格式是我們經(jīng)常會(huì)接觸到的一種文件格式,文獻(xiàn)、文檔...很多都是PDF格式。它以格式穩(wěn)定的優(yōu)勢(shì),使得我們?cè)诖蛴 ⒎窒怼鬏斶^(guò)程中能夠最優(yōu)的保持原有色彩和格式。

PDF是以PostScript語(yǔ)言圖像模型為基礎(chǔ)的一種文檔格式,它在格式的穩(wěn)定性方面雖然具有很大優(yōu)勢(shì)。但是,在可編輯性方面卻為使用者引入了另外一個(gè)困擾。

20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的實(shí)現(xiàn)

例如,在文檔的分割、合并、剪切、轉(zhuǎn)換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF...經(jīng)常用到的PDF工具只能用于文檔閱讀,但是免費(fèi)版都不可以用于文檔編輯。雖然,網(wǎng)頁(yè)版PDF工具,例如SmallPDF、I love PDF可以用于PDF的編輯,但是對(duì)于文檔大小也有限制。

曾經(jīng),為了替換PDF中的一頁(yè),我?guī)缀踉嚤榱怂惺忻嫔现髁鞯腜DF工具,最終還是不得不選擇使用付費(fèi)工具來(lái)解決問(wèn)題。

事后想了想,既然這些商業(yè)化軟件不靠譜,為什么不考慮自己動(dòng)手開發(fā)一款工具呢?明明幾十行代碼能夠解決的問(wèn)題,為什么要費(fèi)那么多勁去下載、安裝那些沒(méi)有節(jié)操的軟件呢?

本文就來(lái)介紹一下利用Python輕松開發(fā)一款PDF編輯工具,可以用于PDF轉(zhuǎn)TxT、分割、合并、剪切、轉(zhuǎn)換。

PyPDF2

PyPDF2是一個(gè)第三方的python PDF庫(kù),它能夠?qū)DF文件進(jìn)行分割、合并、裁剪和轉(zhuǎn)換頁(yè)面。

另外,它還可以對(duì)PDF文件添加自定義數(shù)據(jù)、水印、密碼,也可以從PDF文件中檢索出文本和元數(shù)據(jù)。

安裝

使用pip直接安裝:

$ pip install PyPDF2

下面就來(lái)演示幾項(xiàng)PDF編輯功能,并且會(huì)逐行解釋代碼的含義。

刪除PDF頁(yè)

先給出實(shí)現(xiàn)代碼,

from PyPDF2 import PdfFileWriter, PdfFileReaderoutput = PdfFileWriter() // 1input1 = PdfFileReader(open('example.pdf', 'rb')) // 2def delete_pdf(index): pages = input1.getNumPages() // 3 for i in range(pages): if i+1 in index: continue output.addPage(input1.getPage(i)) // 4 outputStream = open('PyPDF2-output.pdf', 'wb') output.write(outputStream) // 5delete_pdf([2,3,4])

下面來(lái)解釋一下代碼中的幾個(gè)關(guān)鍵點(diǎn):

聲明一個(gè)用于輸出PDF的實(shí)例; 讀取本地PDF文件; 獲取PDF文檔的頁(yè)數(shù); 讀取PDF的第i頁(yè),添加到輸出output實(shí)例中; 把編輯后的文檔保存到本地;

合并PDF

已經(jīng)實(shí)現(xiàn)了刪除PDF頁(yè),接下來(lái)就看一下如何把另外一個(gè)PDF中的頁(yè)面合并到當(dāng)前PDF中。

方法1:

可以沿著前面刪除PDF頁(yè)的方式進(jìn)行拓展一下,對(duì)PDF進(jìn)行合并。

from PyPDF2 import PdfFileWriter, PdfFileReaderoutput = PdfFileWriter()input1 = PdfFileReader(open('example.pdf', 'rb'))input2 = PdfFileReader(open('simple2.pdf', 'rb')) // 1def merge_pdf(add_index, origin_index): pages = input1.getNumPages() k = 0 for i in range(pages): if i+1 in add_index: output.addPage(input2.getPage(origin_index[k])) // 2 pages += 1 k += 1 output.addPage(input1.getPage(i)) outputStream = open('PyPDF2-output.pdf', 'wb') output.write(outputStream)merge_pdf([2,3,4], [0, 0, 0])

讀取需要合并的源文件;

遍歷到指定頁(yè),合并源PDF的頁(yè)面;

方法2:

除了方法1,還有另外一種方法可以合并PDF:

from PyPDF2 import PdfFileMerger // 1merger = PdfFileMerger()input1 = open('document1.pdf', 'rb') // 2input2 = open('document2.pdf', 'rb')input3 = open('document3.pdf', 'rb')merger.append(fileobj = input1, pages = (0,3)) // 3merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4merger.append(input3) // 5output = open('document-output.pdf', 'wb')merger.write(output) 導(dǎo)入PyPDF2合并模塊PdfFileMerger; 讀取需要處理和合并的PDF文檔; 從第一個(gè)PDF文檔中取出需要合并的前3頁(yè); 把第二個(gè)PDF文檔的第一頁(yè)插入到文檔中; 把第三個(gè)PDF文檔附到輸出文檔末尾;

除了上述介紹的2項(xiàng)主要功能,PyPDF2也有一些其他小功能:

旋轉(zhuǎn)

input1.getPage(1).rotateClockwise(90)

使得頁(yè)面1旋轉(zhuǎn)90度。

添加水印

page = input1.getPage(3)watermark = PdfFileReader(open('watermark.pdf', 'rb'))page.mergePage(watermark.getPage(0))

其中,水印存儲(chǔ)在另外一個(gè)PDF文檔watermark.pdf中。

加密

password = 'secret'output.encrypt(password)

首先給一個(gè)secret密碼,然后使用encrypt對(duì)輸出文檔進(jìn)行加密。

pdfminer

前面介紹的PyPDF2主要擅長(zhǎng)于PDF頁(yè)面級(jí)編輯,而對(duì)于文本和源數(shù)據(jù)級(jí)別編輯能力較弱。

所以,這里就來(lái)介紹另外一款Python庫(kù)來(lái)彌補(bǔ)它的不足。

PDFMiner是一個(gè)PDF文檔的文本提取工具,它具有如下特性:

能夠準(zhǔn)確獲取文本的位置和布局信息; 可以將PDF轉(zhuǎn)換為HTML/XML等格式; 可以提取目錄; 可以提取標(biāo)簽內(nèi)容; 支持各種字體類型(Type1、TrueType、Type3和CID); 支持中、日、韓語(yǔ)言和垂直書寫文本;

安裝

$ pip install pdfminer

PDF轉(zhuǎn)TxT

pdfminer在GitHub的托管項(xiàng)目中,在目錄tools下給出了一些實(shí)用的工具集,例如,PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)HTML、PDF轉(zhuǎn)TXT。我們可以直接通過(guò)使用下面命令提出PDF文檔中的文本信息。

$ pdf2txt.py samples/simple1.pdf

總結(jié)

通過(guò)上述2款Python庫(kù),就可以實(shí)現(xiàn)從頁(yè)面到文本元數(shù)據(jù)的編輯,本文只是簡(jiǎn)單的介紹了每項(xiàng)的基本用法。關(guān)于詳細(xì)的用法和函數(shù)列表,可以閱讀官方文檔,或者閱讀GitHub上項(xiàng)目源碼進(jìn)行了解。此外,可以在這些基本的用法基礎(chǔ)上進(jìn)行發(fā)散思維,發(fā)掘更多有價(jià)值的應(yīng)用場(chǎng)景,例如,提出文本數(shù)據(jù)之后調(diào)用翻譯API進(jìn)行文獻(xiàn)翻譯。也可以,對(duì)軟件進(jìn)行封裝,開發(fā)成一款通用的PDF編輯工具。

到此這篇關(guān)于20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python 免費(fèi)PDF編輯工具內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 一区二区日韩欧美 | 色婷婷在线视频 | 91亚洲精| 亚洲视频在线观看免费 | 欧美专区在线 | 欧美日韩一区在线 | 黄色免费一级 | 日韩成人精品视频 | 影音先锋亚洲精品 | 久久精品二区亚洲w码 | 波多野结衣av中文字幕 | 国产精品成人观看视频国产奇米 | 一区二区三区精品视频免费看 | 91精品国产91久久久久久吃药 | 国产精品久久久久久久久免费 | 黄色片免费 | 一级篇 | va在线观看| 国产精品午夜在线观看 | 久久久久久亚洲 | 69久久99精品久久久久婷婷 | 国产高清视频在线 | sis色中色| www.涩涩视频 | www.狠狠干 | 欧美在线一区二区三区 | 久久精品一区二区三区四区 | 欧美午夜一区 | 91麻豆精品国产91久久久更新资源速度超快 | 成人做爰9片免费视频 | www狠狠干 | 一区二区三区在线视频播放 | 欧美日韩视频在线第一区 | 成人伊人 | 中文字幕第一页在线 | 韩日一区 | 色网在线观看 | 久久久久久久 | 亚洲国产精品t66y | 台湾佬成人 | 色久在线 |