【Python】Geminiに画像を送ってテキストを抽出させる方法
以前、Gemini APIでAI結果を取得する方法について紹介しました。このときはテキストのプロンプトを投げて結果を得る方法です。今回は画像を投げて結果を得る方法について紹介します。
投げる画像は以下のものを使いました。名刺のサンプル画像です。この内容をテキストとして抽出してくれるのでしょうか?
プログラムはこちらになります。
import google.generativeai as genai
import PIL.Image
# APIキーを設定
genai.configure(api_key="Your_API_Key")
# モデルを設定
model = genai.GenerativeModel('gemini-1.5-flash')
# 画像ファイルを読み込み
img = PIL.Image.open('./meishi.png')
# プロンプト(質問)を設定
prompt = "テキストを抽出して項目別に列挙してください"
# 画像とプロンプトをモデルに送信し、応答を取得
response = model.generate_content([prompt, img])
# 応答を表示
print(response.text)
結果はこちらになります。ちゃんとテキストを抽出し更に項目別に整理してくれました。優秀!
## 名刺情報 **氏名:** 山田 太郎 (Taro Yamada) **役職:** 営業企画部 主任 **会社名:** 株式会社ジェイティーシー **住所:** 〒100-1000 東京都中央区1丁目1-1 **電話番号:** 03-1234-5678 **FAX番号:** 03-1234-5679 **携帯電話番号:** 090-5555-1234 **メールアドレス:** yamada@jtc.co.jp **ウェブサイト:** http://jtc.co.jp
スポンサーリンク

