PythonとTesseractを使用した日本語OCRの精度向上

投稿者 admin 2024年7月21日

PythonとTesseractを組み合わせて、高精度な日本語OCRを作成する方法について説明します。

ライブラリとTesseractのインストール

まずは、必要なライブラリとTesseractのインストールから始めます。

pip install pillow
pip install pyocr

次に、Tesseractのパスを環境変数に設定します。

import os
path='C:\\\\Program Files\\\\Tesseract-OCR\\\\'
os.environ['PATH'] = os.environ['PATH'] + path

PyocrにTesseractのパスを指定します。

import pyocr
pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
tools = pyocr.get_available_tools()
tool = tools[0]

文字を抽出したい画像のパスを選びます。

from PIL import Image
img = Image.open('画像のパス/画像の名前.JPG')

読み取り精度を設定します。

builder = pyocr.builders.TextBuilder(tesseract_layout=6)
text = tool.image_to_string(img, lang="jpn", builder=builder)

最後に、認識した文字を表示します。

print(text)

以上が、PythonとTesseractを使用した日本語OCRの作成方法です。この方法を用いることで、画像中の日本語テキストを高精度に抽出することが可能となります。.