PythonとTesseractを組み合わせて、高精度な日本語OCRを作成する方法について説明します。
ライブラリとTesseractのインストール
まずは、必要なライブラリとTesseractのインストールから始めます。
pip install pillow
pip install pyocr
環境変数の設定
次に、Tesseractのパスを環境変数に設定します。
import os
path='C:\\\\Program Files\\\\Tesseract-OCR\\\\'
os.environ['PATH'] = os.environ['PATH'] + path
PyocrにTesseractのパスを指定
PyocrにTesseractのパスを指定します。
import pyocr
pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
tools = pyocr.get_available_tools()
tool = tools[0]
画像ファイルのパス指定
文字を抽出したい画像のパスを選びます。
from PIL import Image
img = Image.open('画像のパス/画像の名前.JPG')
読み取り精度の設定
読み取り精度を設定します。
builder = pyocr.builders.TextBuilder(tesseract_layout=6)
text = tool.image_to_string(img, lang="jpn", builder=builder)
認識した文字の表示
最後に、認識した文字を表示します。
print(text)
以上が、PythonとTesseractを使用した日本語OCRの作成方法です。この方法を用いることで、画像中の日本語テキストを高精度に抽出することが可能となります。.