【Python】Geminiに画像を送ってテキストを抽出させる方法
以前、Gemini APIでAI結果を取得する方法について紹介しました。このときはテキストのプロンプトを投げて結果を得る方法です。今回は画像を投げて結果を得る方法について紹介します。
投げる画像は以下のものを使いました。名刺のサンプル画像です。この内容をテキストとして抽出してくれるのでしょうか?
プログラムはこちらになります。
import google.generativeai as genai import PIL.Image # APIキーを設定 genai.configure(api_key="Your_API_Key") # モデルを設定 model = genai.GenerativeModel('gemini-1.5-flash') # 画像ファイルを読み込み img = PIL.Image.open('./meishi.png') # プロンプト(質問)を設定 prompt = "テキストを抽出して項目別に列挙してください" # 画像とプロンプトをモデルに送信し、応答を取得 response = model.generate_content([prompt, img]) # 応答を表示 print(response.text)
結果はこちらになります。ちゃんとテキストを抽出し更に項目別に整理してくれました。優秀!
## 名刺情報 **氏名:** 山田 太郎 (Taro Yamada) **役職:** 営業企画部 主任 **会社名:** 株式会社ジェイティーシー **住所:** 〒100-1000 東京都中央区1丁目1-1 **電話番号:** 03-1234-5678 **FAX番号:** 03-1234-5679 **携帯電話番号:** 090-5555-1234 **メールアドレス:** yamada@jtc.co.jp **ウェブサイト:** http://jtc.co.jp
スポンサーリンク