非IT企業に勤める中年サラリーマンのIT日記

非IT企業でしかもITとは全く関係ない部署にいる中年エンジニア。唯一の趣味がプログラミングという”自称”プログラマー。

【Python】Geminiに画像を送ってテキストを抽出させる方法

   

以前、Gemini APIでAI結果を取得する方法について紹介しました。このときはテキストのプロンプトを投げて結果を得る方法です。今回は画像を投げて結果を得る方法について紹介します。

 

投げる画像は以下のものを使いました。名刺のサンプル画像です。この内容をテキストとして抽出してくれるのでしょうか?

 

プログラムはこちらになります。

import google.generativeai as genai
import PIL.Image

# APIキーを設定
genai.configure(api_key="Your_API_Key")

# モデルを設定
model = genai.GenerativeModel('gemini-1.5-flash')

# 画像ファイルを読み込み
img = PIL.Image.open('./meishi.png')

# プロンプト(質問)を設定
prompt = "テキストを抽出して項目別に列挙してください"

# 画像とプロンプトをモデルに送信し、応答を取得
response = model.generate_content([prompt, img])

# 応答を表示
print(response.text)
 

 

 

結果はこちらになります。ちゃんとテキストを抽出し更に項目別に整理してくれました。優秀!

## 名刺情報

**氏名:** 山田 太郎 (Taro Yamada)

**役職:** 営業企画部 主任

**会社名:** 株式会社ジェイティーシー

**住所:** 〒100-1000 東京都中央区1丁目1-1

**電話番号:** 03-1234-5678

**FAX番号:** 03-1234-5679

**携帯電話番号:** 090-5555-1234

**メールアドレス:** yamada@jtc.co.jp

**ウェブサイト:** http://jtc.co.jp
 

 

スポンサーリンク

 - Python