文章詳情頁

如何基于Python代碼實現(xiàn)高精度免費OCR工具

瀏覽：85日期：2022-07-20 15:49:03

近期Github開源了一款基于Python開發(fā)、名為Textshot的截圖工具，剛開源不到半個月已經(jīng)500+Star。

這兩天抽空看了一下Textshot的源碼，的確是一個值得介紹的項目。

相對于大多數(shù)OCR工具復(fù)雜工程、差強(qiáng)人意的效果，Textshot具有明顯的優(yōu)勢，

項目簡單技術(shù)點豐富

項目簡單

Textshot整個項目只有1個Python文件、139行代碼，沒有復(fù)雜的第三方庫應(yīng)用，也不涉及過多后端算法的調(diào)用。

技術(shù)點豐富

Textshot這個項目雖然只有短短的139行代碼，但是，卻涉及Python中多個方面的知識應(yīng)用，

UI開發(fā) 截圖工具開發(fā) 后端引擎調(diào)用

通過這短短的項目，你不僅可以了解如何利用PyQt5實現(xiàn)一個用戶界面，還可以學(xué)會如何使用pyscreenshot開發(fā)一款自己的截圖工具。此外，還能夠?qū)W會后端tesseract的調(diào)用。

換句話說，這短短的139行代碼囊括了前端至后端的整個流程，而且涉及到截圖和OCR兩款工具的銜接。因此，Textshot雖然工程不大，卻是一個非常完備、值得學(xué)習(xí)的項目。

本文就來剖析這個項目的源代碼，教你一步一步實現(xiàn)自用且永久免費的截圖&OCR工具！

tesseract

目前OCR工具數(shù)不勝數(shù)，但是大多數(shù)都是在相同的后端算法上面進(jìn)行了不同的封裝而已。而真正在OCR核心做的較好、值得大書特書的，那么一定非tesseract莫屬

tesseract早在1985就已經(jīng)開始由HP實驗室開始研發(fā)，而在1995年更是被評為最為準(zhǔn)確的3款OCR工具之一。此后，tesseract被開源，經(jīng)過Google對其不斷的進(jìn)行優(yōu)化和升級，它目前已經(jīng)成為OCR方面一款標(biāo)桿性的工具。很多開源或者付費的OCR工具，都是直接調(diào)用tesseract或者對其進(jìn)行稍許優(yōu)化。

而今天介紹的Textshot就是直接調(diào)用tesseract后端引擎進(jìn)行OCR識別。因此，Textshot只是實現(xiàn)了一款截圖工具，起到前后端的串聯(lián)作用，在OCR識別算法方面并沒有做任何工作。

tesseract安裝

由于Textshot的OCR識別需要調(diào)用tesseract后端引擎，所以，首先需要安裝tesseract。

Windows版安裝可以直接訪問下載鏈接[1].

Mac下可以使用Homebrew進(jìn)行安裝，

brew install tesseract　

Textshot

Textshot是一款截圖識別文字的OCR工具，因此，它主要涉及2個環(huán)境，

截圖

OCR識別

Textshot首先通過截圖獲取需要進(jìn)行文字識別的圖像，然后對這副圖像進(jìn)行OCR文字識別，輸出識別結(jié)果。

前面已經(jīng)介紹了，Textshot的OCR識別階段調(diào)用的是tesseract，所以只需要1行代碼即可完成。

因此，Textshot的工作主要是圍繞前端窗口和截圖工具的實現(xiàn)方面。

截圖工具

截圖工具是我們經(jīng)常會用到的一種工具，如何實現(xiàn)一款截圖工具？

很多人會把它想的非常復(fù)雜，其實，Python中有很多可以實現(xiàn)截圖的庫或者函數(shù)，例如，pyscreenshot或者pillow中的ImageGrab函數(shù)，它的調(diào)用方式如下，

shot = ImageGrab.grab(bbox=(x1, y1, x2, y2))

也就是說，我們只需要把鼠標(biāo)框選的起點和終點坐標(biāo)傳給grab方法就可以實現(xiàn)截圖功能。

那么，現(xiàn)在問題就轉(zhuǎn)化為如何獲取鼠標(biāo)框選的起點和終點？

Textshot通過調(diào)用PyQt5并繼承QWidget來實現(xiàn)鼠標(biāo)框選過程中的一些方法來獲取框選的起點和終點。

Textshot繼承和重寫QWidget方法主要包括如下幾個，

keyPressEvent(self, event)：鍵盤響應(yīng)函數(shù) paintEvent(self, event)：UI繪制函數(shù) mousePressEvent(self, event)：鼠標(biāo)點擊事件 mouseMoveEvent(self, event)：鼠標(biāo)移動事件 mouseReleaseEvent(self, event)：鼠標(biāo)釋放事件

可以看出，上面重寫的方法以及囊括了截圖過程中涉及的各個動作，

點擊鼠標(biāo) 拖動、繪制截圖框釋放鼠標(biāo)

class Snipper(QtWidgets.QWidget): def __init__(self, parent=None, flags=Qt.WindowFlags()): super().__init__(parent=parent, flags=flags) self.setWindowTitle('TextShot') self.setWindowFlags( Qt.FramelessWindowHint | Qt.WindowStaysOnTopHint | Qt.Dialog ) self.is_macos = sys.platform.startswith('darwin') if self.is_macos: self.setWindowState(self.windowState() | Qt.WindowMaximized) else: self.setWindowState(self.windowState() | Qt.WindowFullScreen) self.setStyleSheet('background-color: black') self.setWindowOpacity(0.5) QtWidgets.QApplication.setOverrideCursor(QtGui.QCursor(QtCore.Qt.CrossCursor)) self.start, self.end = QtCore.QPoint(), QtCore.QPoint() def keyPressEvent(self, event): if event.key() == Qt.Key_Escape: QtWidgets.QApplication.quit() return super().keyPressEvent(event) def paintEvent(self, event): if self.start == self.end: return super().paintEvent(event) painter = QtGui.QPainter(self) painter.setPen(QtGui.QPen(QtGui.QColor(255, 255, 255), 3)) painter.setBrush(QtGui.QColor(255, 255, 255, 100)) if self.is_macos: start, end = (self.mapFromGlobal(self.start), self.mapFromGlobal(self.end)) else: start, end = self.start, self.end painter.drawRect(QtCore.QRect(start, end)) return super().paintEvent(event) def mousePressEvent(self, event): self.start = self.end = QtGui.QCursor.pos() self.update() return super().mousePressEvent(event) def mouseMoveEvent(self, event): self.end = QtGui.QCursor.pos() self.update() return super().mousePressEvent(event) def mouseReleaseEvent(self, event): if self.start == self.end: return super().mouseReleaseEvent(event) x1, x2 = sorted((self.start.x(), self.end.x())) y1, y2 = sorted((self.start.y(), self.end.y()))

然后啟動截圖界面，

QtCore.QCoreApplication.setAttribute(Qt.AA_DisableHighDpiScaling)app = QtWidgets.QApplication(sys.argv)window = QtWidgets.QMainWindow()snipper = Snipper(window)snipper.show()

用戶拖動、框選窗口，會獲取窗口的起點和終點的坐標(biāo)，這時候可以調(diào)用下面語句進(jìn)行截圖，獲取需要OCR識別的文本圖像，

shot = ImageGrab.grab(bbox=(x1, y1, x2, y2))

OCR文字識別

通過ImageGrab.grab截取到文本圖像shot，下一步就是要把圖像內(nèi)容輸入給后端的tesseract引擎，讓它把圖像轉(zhuǎn)化為字符串

result = pytesseract.image_to_string(img, timeout=2, lang=(sys.argv[1] if len(sys.argv) > 1 else None))

到這里，就實現(xiàn)了一款準(zhǔn)確度高、永久免費的OCR工具。

回顧一下Textshot的項目，我們會發(fā)現(xiàn)截圖坐標(biāo)范圍內(nèi)的圖像、OCR識別只需要2行代碼，大多數(shù)都是在圍繞獲取窗口起點和終點坐標(biāo)在開發(fā)。換句話說，Textshot這個項目對OCR核心部分并沒有做任何更改，只是在產(chǎn)品包裝方面做了一些巧妙的工作。

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：python導(dǎo)入庫的具體方法下一條：python軟件都是免費的嗎

相關(guān)文章：

1. Ajax返回值類型與用法實例分析2. XML入門精解之結(jié)構(gòu)與語法3. 如何使用CSS3畫出一個叮當(dāng)貓4. 淺談SpringMVC jsp前臺獲取參數(shù)的方式 EL表達(dá)式5. 如何在jsp界面中插入圖片6. jsp實現(xiàn)登錄界面7. 基于javaweb+jsp實現(xiàn)企業(yè)車輛管理系統(tǒng)8. 怎樣才能用js生成xmldom對象，并且在firefox中也實現(xiàn)xml數(shù)據(jù)島？9. WML學(xué)習(xí)之二基本格式和文件頭10. asp取整數(shù)mod 有小數(shù)的就自動加1

排行榜

					
					Ajax返回值類型與用法實例分析
XML入門精解之結(jié)構(gòu)與語法
如何使用CSS3畫出一個叮當(dāng)貓
淺談SpringMVC jsp前臺獲取參數(shù)的方式 EL表達(dá)式
如何在jsp界面中插入圖片
jsp實現(xiàn)登錄界面
怎樣才能用js生成xmldom對象，并且在firefox中也實現(xiàn)xml數(shù)據(jù)島？
基于javaweb+jsp實現(xiàn)企業(yè)車輛管理系統(tǒng)
PHP擴(kuò)展之URL編碼、解碼及解析——URLs
asp取整數(shù)mod 有小數(shù)的就自動加1
Java HashSet(散列集),HashMap(散列映射)的簡單介紹