投稿日：2026/04/12
更新日：2026/04/12

【実例つき】Claudeで写真・画像の文字を読み取る方法📷

13
2件のレビューへ移動↓

青木＠化学/製薬×ITジョブサーチ求人中

この記事は約10分で読めます

要約

写真・手書きメモ・スクリーンショットなどの文字を、AIで自動読み取り！ ClaudeにGemini APIを組み合わせることで実現できます。そのために必要なGoogle GeminiのAPIキー取得方法を、画面つきでわかりやすく解説します。プログラミング知識不要です☺️

🌟 はじめに
✅️まずは実例
📷 なぜGeminiが画像の文字認識に向いているのか
🔑 APIとは？
📋 APIキーの取得手順

STEP 1　Google AI Studioにアクセスする

STEP 2　利用規約に同意する

STEP 3　APIキーを作成する

STEP 4　APIキーをコピーして保存する

⚠️ 使用するモデルについての注意点
🔒 APIキーの取り扱いで注意すること
✅ まとめ

🌟 はじめに

レシピ本の写真、手書きメモ、スクリーンショット……。
こういった画像の中に書いてある文字を、手入力せずに自動でテキストとして取り出せたら便利だと思いませんか？

でもこれをClaude Code/Coworkに任せると、時間は掛かるし正確に読み取ってくれないしで、あまり上手くいきません。（2026/4/12時点）

実はこれ、ClaudeからGoogleのAI「Gemini」を呼び出して使うことで、
驚くほど正確かつ迅速に読み取ってくれます。しかも無料で。

この記事では、そんなGeminiを呼び出して使うための準備方法を、以下の3つの順に紹介します。

・なぜGeminiが画像の文字認識に向いているのか？
・GeminiをClaudeから使うために必要な「APIキー」とは？
・APIキーの取得手順（画面の説明つきで）

パソコンに詳しくなくても大丈夫なよう、画像付きのステップバイステップで書きましたので、ぜひご笑覧ください🙏

ジョブサーチ_挿入5.png

✅️まずは実例

「そもそも文字認識って何…？」という方もいらしゃいますよね。
そこで、まずは実例を紹介します。

今回のお題は、「これまでノートに手書きでまとめてきたレシピを、Googleドキュメントにまとめること」です。

紙のノートはフリースタイルで好きなようにまとめられたり、
気軽に修正やメモを追記できたり、調理時に取り回しがしやすいですが、
後で検索するときが不便です。

ノートが増えてきたことも有り、「あのレシピ、どのノートに書いたっけ…？」というのが悩みでした。
家事按分_挿入.png そこで、Googleドキュメントにまとめたら検索しやすいし、
料理するときもタブレットに表示させれば場所を取らないので、
今後はこれでいこう！という方針になりました。

ですが、新しく作るレシピは良いものの、問題はこれまでまとめてきたノートです。
これをGoogleドキュメントに移すためには、人間が一つずつ手入力しないといけません。
毎回レイアウトも考えないといけないし、かなり手間です。
それを何十冊もやるとなると、大変すぎてやる気が起きません。

そこで思いついたのが、
💡ノートの写真を撮って、Claudeに文字起こしさせれば良いのでは…！？
という発想です。
天才的ですね。これは勝ちました（フラグ）

早速実行。
取り込んだ手書きレシピがこちら。手作りパン🥐のレシピです。
手書きレシピノート2.JPG これをClaudeに文字起こししてもらうと、こうなります。

Claude読み取り結果.png ダメダメです。
構成はOKですが、肝心の内容はほとんど読み取れず [?] になっています。
全粒粉とかベーキングパウダーとか、使ってないんですけど💦

これでは手打ちしないといけない部分が多く、挫折してしまいます。
しかも読み取りにもとても時間が掛かっていて、苦労しているのが伝わってきました😭

ジョブサーチ_挿入1.png そこで、Claude AIに相談し、改善を図りました。
彼曰く、ClaudeからGeminiを呼び出して使った方が良いとのこと。

言われたとおりに改善を施し、再チャレンジした結果がこちらです。

材料、手順、メモなど、ほとんど文字起こししてくれています。
すごくないですか？
箇条書きが少し崩れている部分はありますが、
これならあと少し修正するだけで使えちゃいますよね。

しかも作業もめちゃくちゃ早くて、Claudeだけに任せたときと雲泥の差です。
これならいけそうだということで、今後はこの方法でノートを電子化していくことになりました☺️

さて、ここまでは文字認識の実例を紹介してきました。
ここからはその裏側と、具体的な準備方法をお伝えしていきます。

独立前のチェックポイント_挿入2.png

📷 なぜGeminiが画像の文字認識に向いているのか

写真や画像の中にある文字を読み取る技術のことを、IT用語では「OCR（光学文字認識）」と呼びます。

これまでも専用のOCRソフトは存在しましたが、最近のAI、特にGoogleのGeminiは従来のOCRとは一線を画した精度を持っています。

その理由は以下のとおりです。

・手書き文字にも対応できる。
・傾いた写真や照明の悪い画像でも読み取れることが多い。
・日本語・英語・数字が混在していてもうまく処理できる
・読み取り結果を「こういう形式で出力して」と指示できる（AIなので会話形式で指定可能）
・APIを通じてプログラムと連携できるため、自動化に使いやすい

💡 活用例
・レシピの写真 → テキストに変換してGoogleドキュメントに保存
・手書きメモの写真 → デジタルテキストに変換
・スクリーンショットの中の表 → 編集可能なテキストとして取り出す
・手書きの家計簿や日記 → デジタルアーカイブ化

OCR自体はClaudeでもできるものの、上でお伝えした通り、
現時点ではあまり得意ではありません。

ですのでこの部分はそれが得意なGeminiに依頼したいのですが、
これをClaudeやプログラムから自動で行うためには、
GeminiをAPIという形で呼び出す必要があります。

ですが「APIとは何ぞや？」という方もいらっしゃいますよね。
そこで次のセクションでは、APIとは何かについて、簡単に紹介します。

ジョブサーチ_挿入2.png

🔑 APIとは？

「API」とは、プログラムどうしが話しかけるための窓口のようなものです。

GeminiのAPIを使うと、ClaudeやプログラムからGeminiに対して画像と指示（この画像の文字を読み取って）を送り、結果を受け取ることができます。
Claudeやプログラムから、作業をGeminiに依頼するようなイメージです。

そして「APIキー」とは、そのGeminiの窓口に入るための入場許可証です。

キーを持っていないプログラムはGeminiを使えません。
逆に言えば、キーさえ取得すれば、Geminiの画像認識機能を、Claudeや自分のプログラムに組み込むことができるのです。

✅ まとめると
APIキー＝ GeminiをプログラムからAIとして使うための「認証パスワード」。
Gemini APIはGoogleアカウントがあれば無料で取得でき、個人の自動化用途には十分な無料枠があります。

※世の中のAPIが全て無料なわけではありません。
Geminiがある程度無料で使えるだけで、最初から有料のAPIもあります。
例えばClaudeのAPI（Anthropic API）を使いたい場合、月額費用とは別にお金を払わないといけません。

脱サラ_挿入2.png

📋 APIキーの取得手順

STEP 1　Google AI Studioにアクセスする

以下のURLをブラウザで開いてください。

　https://aistudio.google.com/

Googleアカウントでログインしていない場合、ログイン画面が表示されます。
普段お使いのGmailのアカウントでログインしてください。

STEP 2　利用規約に同意する

初回アクセス時に「AI Studioへようこそ」というポップアップが表示されます。
ポップアップには以下のような説明と、2つのチェックボックスがあります。

チェックボックスの扱い

✅️1つ目（必須）：「私はデベロッパーとして、ビジネス・プロ向けに使用することを確認し、利用規約に同意します」
→ 個人で自動化に使う場合も該当します。必ずチェックしてください。

🔲 2つ目（任意）：Googleからのお知らせメールを受け取るかどうか
→ 不要であればチェックしなくてOKです。

1つ目にチェックを入れて、「続行」をクリックしてください。

STEP 3　APIキーを作成する

Google AI Studioのホーム画面が開いたら、画面左側のメニューから「Get API key」をクリックします。

次の画面で右上の「API キーを作成」ボタンをクリックすると、
「新しいキーを作成する」というポップアップが表示されます。

ポップアップの各項目

🔶キー名の設定（初期値：「Gemini API Key」）
→ このキーに付ける名前です。デフォルトのままで問題ありません。

🔶インポートしたプロジェクトを選択（初期値：「Default Gemini Project」）
→ キーをどのプロジェクトに紐づけるかです。初めての場合はそのままで問題ありません。

設定を確認したら「キーを作成」ボタンをクリックします。

STEP 4　APIキーをコピーして保存する

キーが作成されると、「AIza...」で始まる長い文字列が表示されます。これがあなたのGemini APIキーです。

🔑 必ずこの画面でコピーして保存してください
画面を閉じると再表示されないことがあります。
メモ帳などにペーストするか、パスワード管理ソフトに記録して、
安全な場所に保管しておきましょう。
以上でGemini APIを使う準備は完了です。

あとはClaude Code/Coworkで依頼するときに、
「GeminiのAPIを使って画像から文字を抽出して」と指示すれば、適切に処理してくれます。

「GeminiのAPIキーを教えてください」と言われますので、指示に従って伝えましょう☺️

ジョブサーチ_挿入4.png

⚠️ 使用するモデルについての注意点

便利なGeminiですが、実はいくつかのモデル（バージョン）があります。
プログラムから使う際には、「gemini-2.5-flashを使用して」と伝えてください。

gemini-1.5-flashは古いためエラーが発生することがあります。
以前は「gemini-1.5-flash」というモデルがよく使われていたようで、
指定しないとClaudeがこれを使うケースがあります。
ですがこちらはサポートが縮小されており、エラーが出る場合があります。

ですので現在の推奨モデルである「gemini-2.5-flash」を使用してください。

🔒 APIキーの取り扱いで注意すること

注意点として、APIキーはパスワードと同じように扱う必要があります。
以下の点に気をつけてください。

・他人に見せない、SNSやブログにそのまま貼らない。
・GitHubなどのコード共有サービスにそのまま書き込まない。
・メールやチャットで送信しない。

💡 もし漏れてしまったら
Google AI Studioの「APIキー」画面から該当のキーを削除して、新しいキーを作成し直してください。

副業の見つけ方_挿入.png

✅ まとめ

Geminiは写真や画像の中の文字を読み取るのに非常に優れたAIです。
GeminiのAPIキーを取得することで、ClaudeやプログラムからGeminiを呼び出し、画像認識を自動化することができます。

APIキーの取得方法は以下の通りです。

1️⃣ Google AI Studio にアクセス
2️⃣ Googleアカウントでログイン
3️⃣ 「AI Studioへようこそ」ポップアップの1つ目にチェックして「続行」
4️⃣ 左メニュー「Get API key」→「API キーを作成」をクリック
5️⃣ キー名・プロジェクトはデフォルトのまま「キーを作成」
6️⃣ 表示されたAPIキー（AIza...）をコピーしてメモ帳に保存

次のステップとして、このキーをClaudeなどに渡してあげると、
レシピ写真の自動テキスト化、手書きメモのデジタル化など、
さまざまな自動化が実現できます。

手書きの日記や予定表、家計簿、家系図などなど、ぜひ色々なことにお使いください！👏

ジョブサーチ_挿入3.png