Google Vision APIは、画像認識に特化したAPIで、画像から顔を検出したり、写っているものを識別できます。この記事では、Pythonを使用してGoogle Vision APIのOCR機能を利用する方法を解説します。
Google Vision APIとは?
Google Vision APIは、開発者がアプリケーション内で視覚検出機能を簡単に統合できるようにするAPIです。これには、画像のラベル付け、顔とランドマークの検出、光学文字認識(OCR)、および明示的なコンテンツのタグ付けが含まれます。
Google Vision APIの設定
Google Vision APIを使用するには、まずGoogle Cloud Platform(GCP)でAPIを有効にする必要があります。その後、サービスアカウントを作成し、環境変数に秘密鍵のパスを設定します。最後に、Pythonのクライアントライブラリをインストールします。
pip install --upgrade google-cloud-vision
Google Vision APIの使用方法
Google Vision APIのOCRには、TEXT_DETECTION
とDOCUMENT_TEXT_DETECTION
の2つの方法があります。
単語を取得する場合:TEXT_DETECTION
TEXT_DETECTION
は比較的短い文字列に適しており、単語や単語の境界を取得できます。以下に、看板の単語を取得する例を示します。
from pathlib import Path
from google.cloud import vision
p = Path(__file__).parent / 'load-sign.jpg'
client = vision.ImageAnnotatorClient()
with p.open('rb') as image_file:
content = image_file.read()
image = vision.types.Image(content=content)
response = client.text_detection(image=image)
for text in response.text_annotations:
print(text.description)
文章を取得する場合:DOCUMENT_TEXT_DETECTION
文章を取得したい場合は、DOCUMENT_TEXT_DETECTION
を使用します。この方法は文章に最適化されており、ページや段落、単語の情報を取得できます。
以上が、PythonとGoogle Vision APIを使用した画像認識の基本的な手順です。具体的なコード例とともに、Google Vision APIの設定方法と使用方法を説明しました。これらの情報が、PythonとGoogle Vision APIを使用した画像認識の開発に役立つことを願っています。