\

Google Vision APIは、画像認識に特化したAPIで、画像から顔を検出したり、写っているものを識別できます。この記事では、Pythonを使用してGoogle Vision APIのOCR機能を利用する方法を解説します。

Google Vision APIとは?

Google Vision APIは、開発者がアプリケーション内で視覚検出機能を簡単に統合できるようにするAPIです。これには、画像のラベル付け、顔とランドマークの検出、光学文字認識(OCR)、および明示的なコンテンツのタグ付けが含まれます。

Google Vision APIの設定

Google Vision APIを使用するには、まずGoogle Cloud Platform(GCP)でAPIを有効にする必要があります。その後、サービスアカウントを作成し、環境変数に秘密鍵のパスを設定します。最後に、Pythonのクライアントライブラリをインストールします。

pip install --upgrade google-cloud-vision

Google Vision APIの使用方法

Google Vision APIのOCRには、TEXT_DETECTIONDOCUMENT_TEXT_DETECTIONの2つの方法があります。

単語を取得する場合:TEXT_DETECTION

TEXT_DETECTIONは比較的短い文字列に適しており、単語や単語の境界を取得できます。以下に、看板の単語を取得する例を示します。

from pathlib import Path
from google.cloud import vision

p = Path(__file__).parent / 'load-sign.jpg'
client = vision.ImageAnnotatorClient()

with p.open('rb') as image_file:
    content = image_file.read()

image = vision.types.Image(content=content)
response = client.text_detection(image=image)

for text in response.text_annotations:
    print(text.description)

文章を取得する場合:DOCUMENT_TEXT_DETECTION

文章を取得したい場合は、DOCUMENT_TEXT_DETECTIONを使用します。この方法は文章に最適化されており、ページや段落、単語の情報を取得できます。

以上が、PythonとGoogle Vision APIを使用した画像認識の基本的な手順です。具体的なコード例とともに、Google Vision APIの設定方法と使用方法を説明しました。これらの情報が、PythonとGoogle Vision APIを使用した画像認識の開発に役立つことを願っています。

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です