GoogleのGenerative AIは、GeminiやPaLMなどの最先端の生成AIモデルを使用してAI機能やアプリケーションを構築するためのPython SDKを提供しています。このSDKは以下のようなユースケースをサポートしています:
- テキストのみの入力からテキストを生成
- テキストと画像の入力(マルチモーダル)からテキストを生成(Geminiのみ)
- マルチターンの会話(チャット)を構築
- 埋め込み
例えば、以下のように数行のコードでGeminiのマルチモーダル機能を利用してテキストと画像の入力からテキストを生成することができます:
import google.generativeai as genai
from pathlib import Path
genai.configure(api_key=os.environ["API_KEY"])
model = genai.GenerativeModel('gemini-pro-vision')
cookie_picture = {
'mime_type': 'image/png',
'data': Path('cookie.png').read_bytes()
}
prompt = "Give me a recipe for this:"
response = model.generate_content(content=[prompt, cookie_picture])
print(response.text)
このコードは、cookie.png
という画像と「これのレシピを教えてください」というプロンプトを入力として、レシピを生成します。
また、以下のようにモデルとの会話を開始し、モデルに質問を投げかけることも可能です:
chat = model.start_chat()
response = chat.send_message('Hello, what should I have for dinner?')
print(response.text) # 'Here are some suggestions...'
response = chat.send_message("How do I cook the first one?")
このSDKはPyPIからインストールすることができ、詳細な使用方法はGoogleのドキュメンテーションで確認することができます。GoogleのGenerative AIを活用すれば、Pythonを使って高度なAI機能を簡単に実装することが可能です。