【Python】Geminiに画像を送ってテキストを抽出させる方法

2025/03/01

以前、Gemini APIでAI結果を取得する方法について紹介しました。このときはテキストのプロンプトを投げて結果を得る方法です。今回は画像を投げて結果を得る方法について紹介します。

ChatGPTに肩を並べるAIとしてGoogleのGeminiが注目を集めています。ChatGPT同様、専用のWebサイト上で質問をして回答を得ることができますが、ChatGPTは有償プランのみで提供されているのに対し、Geminiは無償でAPIを提供している点が大きな特徴です。この無償APIを利用することで、Geminiの先進的な機能をプログラムから操作でき、自動化によって迅速かつ的確な応答を得ることが可能になります。本記事では、Pythonを使って実際にGeminiに質問を投げ、応答を取得する方法を解説します。APIキーの取得からPythonでの実装まで手順をわか...

投げる画像は以下のものを使いました。名刺のサンプル画像です。この内容をテキストとして抽出してくれるのでしょうか？

プログラムはこちらになります。

import google.generativeai as genai
import PIL.Image

# APIキーを設定
genai.configure(api_key="Your_API_Key")

# モデルを設定
model = genai.GenerativeModel('gemini-1.5-flash')

# 画像ファイルを読み込み
img = PIL.Image.open('./meishi.png')

# プロンプト（質問）を設定
prompt = "テキストを抽出して項目別に列挙してください"

# 画像とプロンプトをモデルに送信し、応答を取得
response = model.generate_content([prompt, img])

# 応答を表示
print(response.text)

結果はこちらになります。ちゃんとテキストを抽出し更に項目別に整理してくれました。優秀！

## 名刺情報

**氏名:** 山田 太郎 (Taro Yamada)

**役職:** 営業企画部 主任

**会社名:** 株式会社ジェイティーシー

**住所:** 〒100-1000 東京都中央区1丁目1-1

**電話番号:** 03-1234-5678

**FAX番号:** 03-1234-5679

**携帯電話番号:** 090-5555-1234

**メールアドレス:** yamada@jtc.co.jp

**ウェブサイト:** http://jtc.co.jp

- Python

: 【Python】フォルダ内の画像ファイル名を一括変更する方法

Pythonを使って、指定したフォルダ内の.jpg画像ファイル名をファイル名順に …

: 【Python】DataframeをNumPyを使ってフィルタリングする方法

データ分析において、大量のデータの中から必要な情報だけを効率的に取り出すスキルは …

: Pythonで為替情報をスクレイピングする方法（BeautifulSoup）

PythonはWeb上のデータをスクレイピングするのがとても楽ちんでです。Bea …

: なんと！Chromebookで利用できるLinuxにはPythonが標準で入っていた！

ここで書いたとおりChromebookに搭載されているLinux機能をオンにして …

: 【Python】分類可視化をやってみた：PCAとLDAでデータを見やすくする

データ解析では、特徴量を視覚的に理解することが重要ですが、高次元データではそれが …

PREV: 【ExcelVBA】t検定ツールをExcelマクロで作った
NEXT: 【Python】日本語テキストと画像を含むPDFを作成する