Pythonは、その強力なライブラリとツールのおかげで、画像からテキストを抽出するための優れた言語です。この記事では、Pythonを使用してOCR(光学的文字認識)を実装する方法について説明します。
Tesseractとpytesseract
Tesseractは、Googleが開発したオープンソースのOCRエンジンで、多くの言語をサポートしています。PythonでTesseractを使用するためには、pytesseractというライブラリを使用します。
インストール
Tesseractとpytesseractのインストールは簡単です。以下のコマンドを実行します。
pip install pytesseract
また、Tesseractの実行ファイルへのパスを設定する必要があります。
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
画像からテキストを抽出
pytesseractは、image_to_string
という関数を提供しています。この関数は、画像ファイルを入力として受け取り、抽出されたテキストを出力として返します。
以下に、画像からテキストを抽出するための基本的なPythonコードを示します。
from PIL import Image
from pytesseract import pytesseract
# 画像を読み込む
img = Image.open('image_path')
# TesseractでOCRを実行
text = pytesseract.image_to_string(img, lang='jpn')
print(text)
このコードは、指定した画像からテキストを抽出し、それを表示します。
まとめ
PythonとTesseractを使用すると、画像からテキストを簡単に抽出できます。これは、自動化、データマイニング、アクセシビリティ向上など、さまざまなアプリケーションで役立ちます。ただし、OCRは完全ではないため、結果は常に確認する必要があります。