docTRは、TensorFlow 2とPyTorchを活用した光学文字認識(OCR)を容易に行うことができるPythonライブラリです。この記事では、docTRを用いたOCRの基本的な実装方法を紹介します。
docTRのインストール
まずは、docTRをインストールします。docTRはPyPIから簡単にインストールすることができます。
pip install python-doctr
OCRの実装
docTRを用いたOCRの実装は以下のようになります。
from doctr.models import ocr_predictor
from doctr.io import DocumentFile
# モデルの選択と読み込み
model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)
# ファイルの読み込み
doc = DocumentFile.from_pdf("path/to/your/doc.pdf")
# OCRの実行
result = model(doc)
このコードでは、まずocr_predictor
を用いてOCRのモデルを読み込みます。ここでは、テキスト検出にはdb_resnet50
、テキスト認識にはcrnn_vgg16_bn
を使用しています。
次に、DocumentFile.from_pdf
を用いてPDFファイルを読み込みます。
最後に、読み込んだモデルとファイルを用いてOCRを実行します。
結果の表示
OCRの結果は、以下のように表示することができます。
# 結果の表示
result.show()
また、OCRの結果を用いて元のドキュメントを再構築することも可能です。
import matplotlib.pyplot as plt
# 元のドキュメントの再構築
synthetic_pages = result.synthesize()
# 再構築したドキュメントの表示
plt.imshow(synthetic_pages[0])
plt.axis('off')
plt.show()
以上が、PythonとdocTRを用いたOCRの基本的な実装方法です。これを応用することで、様々なOCRタスクに対応することが可能です。.