\

docTRは、TensorFlow 2とPyTorchを活用した光学文字認識(OCR)を容易に行うことができるPythonライブラリです。この記事では、docTRを用いたOCRの基本的な実装方法を紹介します。

docTRのインストール

まずは、docTRをインストールします。docTRはPyPIから簡単にインストールすることができます。

pip install python-doctr

OCRの実装

docTRを用いたOCRの実装は以下のようになります。

from doctr.models import ocr_predictor
from doctr.io import DocumentFile

# モデルの選択と読み込み
model = ocr_predictor(det_arch='db_resnet50', reco_arch='crnn_vgg16_bn', pretrained=True)

# ファイルの読み込み
doc = DocumentFile.from_pdf("path/to/your/doc.pdf")

# OCRの実行
result = model(doc)

このコードでは、まずocr_predictorを用いてOCRのモデルを読み込みます。ここでは、テキスト検出にはdb_resnet50、テキスト認識にはcrnn_vgg16_bnを使用しています。

次に、DocumentFile.from_pdfを用いてPDFファイルを読み込みます。

最後に、読み込んだモデルとファイルを用いてOCRを実行します。

結果の表示

OCRの結果は、以下のように表示することができます。

# 結果の表示
result.show()

また、OCRの結果を用いて元のドキュメントを再構築することも可能です。

import matplotlib.pyplot as plt

# 元のドキュメントの再構築
synthetic_pages = result.synthesize()

# 再構築したドキュメントの表示
plt.imshow(synthetic_pages[0])
plt.axis('off')
plt.show()

以上が、PythonとdocTRを用いたOCRの基本的な実装方法です。これを応用することで、様々なOCRタスクに対応することが可能です。.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です