OCR(Optical Character Recognition)は、画像からテキストを抽出する技術です。Pythonでは、さまざまなOCRライブラリが利用可能で、それぞれに特徴と利点があります。
AWS Textract
AWS Textractは、Amazonが提供するOCRサービスです。しかし、2023年12月時点では日本語に対応していません。
PyTesseract
PyTesseractは、GoogleのTesseract-OCRエンジンのPythonラッパーです。日本語の文字列を取得することが可能ですが、取得できる文字とそうでない文字があります。
Pyocr
Pyocrもまた、GoogleのOCRエンジンを使用したライブラリです。日本語の文字列を取得することが可能ですが、他のツールに比べて取得できる情報量は少ないです。
GCP Vision AI
GCP Vision AIは、Google Cloud Platformが提供するOCRサービスで、非常に高い精度を誇ります。
- 以上のライブラリの中で、最も高い精度を示したのはGCP Vision AIでした。しかし、どのライブラリを選択するかは、プロジェクトの要件や利用可能なリソースによります。それぞれのライブラリの詳細な比較と使用例については、各公式ドキュメンテーションを参照してください。
-
Pythonで開発するときに使える、もっとも高精度なOCRツールは何か
-
pytesseract · PyPI
-
Basil CM – Medium – Best OCR tools in Python
-
【Python】簡単OCR #Python – Qiita