- 投稿日:2026/04/18
【実演あり】GoogleのAI音声生成「Gemini 3.1 Flash TTS」を徹底解説!30種類の声と感情タグで思い通りのナレーションを作ろう

「ブログの内容を音声化したい」「YouTube動画にナレーションを入れたい」「でも声優さんへの依頼は費用がかかるし、自分の声は録音したくない……」
そんな悩みを抱えていませんか?
音声コンテンツは近年ますます注目を集めています。ポッドキャストやYouTube、SNSの動画など、耳で聞けるコンテンツは通勤中や家事の合間にも楽しめるため、テキストよりも広いユーザー層にリーチできます。しかし、クオリティの高い音声を用意しようとすると、専門の声優さんへの依頼や収録スタジオの手配など、費用と手間がかかってしまうのが現実です。
そこで今回ご紹介するのが、Googleが開発した最新のAI音声生成サービス「Gemini 3.1 Flash TTS」です。このサービスを使えば、テキストを入力するだけで、まるで人間が読み上げたかのような自然な音声を、しかも無料で生成することができます。
📌 この記事でわかること

✅ Gemini 3.1 Flash TTSとはどんなサービスか
✅ 30種類の音声から用途に合ったものを選ぶ方法
✅ 感情タグを使って声に感情・表現を加える方法
✅ Google AI Studioで実際に試す手順
✅ どんな場面で活用できるか
AI初心者の方にも分かりやすく解説しますので、ぜひ最後まで読んでみてください!
音声コンテンツの制作ハードルが、AIの進化によってどんどん下がってきています。費用をかけずに高品質なナレーションを手に入れる時代が、もうすでに来ているんです。
🎙️ Gemini 3.1 Flash TTSとは?

Gemini 3.1 Flash TTSは、Googleが開発した最新のAI音声生成(TTS)サービスです。
「TTS」とは「Text-To-Speech(テキスト・トゥ・スピーチ)」の略で、文字通り「テキスト(文章)を音声(スピーチ)に変換する」技術のことです。テキストを入力すると、AIがそれを読み上げた音声ファイルを出力してくれます。
このサービスの正式なモデルID(AIモデルを識別するための名前)は「gemini-3.1-flash-tts-preview」といいます。
業界最高水準のスコアを叩き出している
Gemini 3.1 Flash TTSは、AI音声生成の品質を比較する国際的な評価機関「Artificial Analysis TTSリーダーボード」において、1,211 Elo(エロー)スコアを記録しています。Eloスコアとはチェスやスポーツのランキングシステムにも使われる実力評価の指標で、数値が高いほど品質が優れていることを意味します。この数字は、執筆時点で業界最高水準と言われています。
SynthIDウォーターマークとは?
すべての生成音声には「SynthID(シンスID)ウォーターマーク」が自動的に付与されます。ウォーターマークとは「電子透かし」のことで、音声ファイルの中に人間の耳では聞こえない形でAIが生成したことを示す情報が埋め込まれています。これにより、AIが作った音声であることを後から確認できる仕組みになっています。透明性と安全性を大切にするGoogleらしい機能です。
どこで使える?
Gemini 3.1 Flash TTSは以下のプラットフォームから利用できます。
✅ Google AI Studio(無料で試せる・初心者向け)
✅ Gemini API(開発者向け)
✅ Vertex AI(企業向けの本格運用)
✅ Google Workspace(Google Vids)(ビジネス利用)
初めて試すなら、Google AI Studioが一番手軽でおすすめです。アカウントさえあれば無料でアクセスできます。
Gemini 3.1 Flash TTSの主なスペック

✅入力できる文字数の目安:最大8,192トークン(約6,000〜8,000文字相当)
✅出力できる音声の長さ:最大16,384トークン分
✅対応言語数:70以上(日本語含む)
✅用意されている音声:30種類
✅ストリーミング再生:非対応(生成後にダウンロードして使用)
✅一括処理(Batch API):対応
※「トークン」とは、AIがテキストを処理するときの単位です。日本語では1文字がおよそ1〜2トークンに相当します。
🔊 30種類の声から選べる

Gemini 3.1 Flash TTSには、あらかじめ用意された30種類のプリセット音声があります。それぞれに個性があり、用途に合わせて選ぶことができます。
代表的な音声の紹介
🎧 Aoede(アオエデ)爽やか教材・解説動画
🎧 Puck(パック)陽気エンタメ・SNS動画
🎧 Charon(カロン)情報的ニュース・レポート読み上げ
🎧 Sulafat(スラファット)温かいチュートリアル・サポート音声
🎧 Achird(アキルド)フレンドリーポッドキャスト・トーク系コンテンツ
🎧 Achernar(アケルナル)柔らか癒し系・マインドフルネス
🎧 Zephyr(ゼファー)明るい広告・プロモーション動画
🎧 Kore(コレ)しっかりしたビジネス資料・プレゼン
🎧 Leda(レダ)若々しい学習コンテンツ・語学教材
🎧 Umbriel(ウンブリエル)穏やかナレーション・読み聞かせ
このほかにも、ハスキーな声の「Algenib」、クリアで聞き取りやすい「Iapetus」、大人っぽい雰囲気の「Gacrux」など、個性豊かな音声が揃っています。
用途別のおすすめ音声
🎧 ポッドキャスト・トーク系コンテンツ → Achird(フレンドリー)、Puck(陽気)、Laomedeia(陽気)
📚 教材・解説コンテンツ → Aoede(爽やか)、Charon(情報的)、Sadaltager(知識的)
🎬 YouTube・動画ナレーション → Zephyr(明るい)、Iapetus(クリア)、Despina(スムーズ)
💼 ビジネス・公式コンテンツ → Kore(しっかりした)、Alnilam(しっかりした)、Schedar(落ち着いた)
🌙 癒し系・リラックス系 → Achernar(柔らか)、Vindemiatrix(穏やか)、Sulafat(温かい)
70以上の言語に対応
Gemini 3.1 Flash TTSは70以上の言語に対応しており、もちろん日本語も含まれています。同じ音声モデルを使って英語・日本語・スペイン語などを切り替えて使えるため、多言語対応のコンテンツ制作にも大変便利です。
どの声を選んでいいか迷ったら、まずはGoogle AI Studioで実際にいくつか試し聴きしてみることをおすすめします。文章を入力して音声を再生するだけで違いがよく分かりますよ。
🎭 感情タグで声の演技をコントロール

Gemini 3.1 Flash TTSの大きな特徴のひとつが、「音声タグ(ボイスタグ)」と呼ばれる機能です。
音声タグとは?
音声タグとは、読み上げてほしいテキストの中に「[excited]」や「[whispers]」といった特殊な記号(タグ)を差し込むことで、そのタグが付いた部分の声色や感情表現を変化させる機能です。
たとえば、同じ「今日は最高の天気ですね!」というセリフでも、タグを変えるだけで「興奮気味に言う」「ひそひそと囁く」「笑いながら言う」など、まるで演技の指示を出すように声を調整できます。
使えるタグ一覧(16種類)
✅ [amazed] ……驚いた様子で
✅ [crying] ……泣きながら
✅ [curious] ……好奇心旺盛に
✅ [excited] ……興奮して
✅ [sighs] ……ため息をつきながら
✅ [gasp] ……息をのんで
✅ [giggles] ……くすくす笑いながら
✅ [laughs] ……笑いながら
✅ [mischievously] ……いたずらっぽく
✅ [panicked] ……パニックになって
✅ [sarcastic] ……皮肉っぽく
✅ [serious] ……真剣に
✅ [shouting] ……叫ぶように
✅ [tired] ……疲れた様子で
✅ [trembling] ……震えながら
✅ [whispers] ……囁くように
具体的な使い方のイメージ
たとえば、こんなふうにテキストを入力します。
「今日の発表、うまくいくかな…[sighs] まあ、やるしかないよね。[excited] よし、絶対うまくいく!」
このように書くと、「まあ、やるしかないよね」の部分はため息交じりに、「よし、絶対うまくいく!」の部分は興奮気味に読み上げてくれます。まるでドラマの台本のような感覚で音声を作れるのです。

高度なプロンプト設定(6つの構成要素)
さらに使いこなしたい方向けに、音声の品質を高める「プロンプト(AIへの指示文)」の構成要素が6つ用意されています。
✅Audio Profile(音声キャラクター設定)
声の年齢・性別・トーンなどのキャラクター設定
✅Scene(シーン・環境設定)
どんな場面で話しているかの設定
✅Director's Notes(演出指示)
全体的な読み方・ペース・スタイルの指示
✅Context Sample(文脈サンプル)
音声の前後の文脈を補足する情報
✅Transcript(読み上げテキスト)
実際に読み上げてほしい文章
✅Voice Tags(インライン感情タグ)
テキスト中に差し込む感情タグ
これら6つの要素を組み合わせることで、「30代の女性が、朝の情報番組のキャスターとして、落ち着いたトーンでニュースを読み上げる」といった細かい設定も可能になります。
音声タグは初心者の方でも直感的に使えるのが魅力です。まずはシンプルなタグから試してみて、徐々に複雑な表現に挑戦してみてください。
💻 Google AI Studioで実際に試してみた

実際にGemini 3.1 Flash TTSを試してみましょう!初心者でも一番手軽に使えるのが「Google AI Studio」です。
Google AI Studioとは?
Google AI Studioとは、Googleが無料で提供しているAI実験・開発プラットフォームです。専門的なプログラミングの知識がなくても、ブラウザ上でGeminiシリーズのAIモデルをすぐに試すことができます。
アクセス方法
ブラウザで「aistudio.google.com」にアクセスしますGoogleアカウントでログインします(Gmailがあればすぐ使えます)これだけでOKです!
Gemini 3.1 Flash TTSを使う手順
ステップ1:モデルを選択する
設定メニューから「Speech and Music」→「gemini-3.1-flash-tts-preview」→「Turn text into natural-sounding speech...」を選びます。



ステップ2:音声を選ぶ
設定パネルから、好みの音声(たとえば「Aoede」や「Sulafat」など)を選択します。

ステップ3:テキストを入力する
入力欄に読み上げてほしい日本語テキストを入力します。感情タグを入れることもできます。
ステップ4:音声を生成して聴く
「Run Ctrl(生成)」ボタンを押すと、数秒で音声が生成されます。プレビュー再生で確認した後、音声ファイルとしてダウンロードできます。

実際に日本語ナレーションを生成してみた

試しに以下のようなテキストを入力して、音声を生成してみました。
「こんにちは![excited] 今日は、AIを使った音声制作についてご紹介します。[serious] この技術を使えば、誰でも簡単にプロ品質のナレーションが作れるんです。[giggles] 楽しみですよね?」
音声「Aoede(爽やか)」を選んで生成したところ、「こんにちは!」の部分は元気よく、「この技術を使えば……」の部分は真剣な口調に、そして最後は少し笑いを含んだ自然なトーンで読み上げてくれました。テキストで指示するだけで、こんなに表情豊かな音声ができることに驚きました!
注意点
長時間の音声は品質が低下する可能性があります。
数分を超えるような長い音声を生成する場合は、テキストを複数のパートに分割して生成することをおすすめします。
まれに音声ではなくテキスト(文字データ)が出力されることがあります。その場合はもう一度生成を試みてください。
内容によってはコンテンツフィルター(不適切な内容を防ぐ機能)が誤って作動することがあります。その場合は表現を調整してみてください。
操作はとても直感的で、「テキストを入れてボタンを押す」だけです。難しい設定は一切不要なので、ぜひ気軽に試してみてください!
✅ どんな場面で使える?活用シーン
Gemini 3.1 Flash TTSは、さまざまなコンテンツ制作の場面で大活躍します。具体的な活用シーンを見ていきましょう。
📝 ブログ・note記事の音声版作成
書いたブログやnoteの記事をそのままテキストとして入力し、音声版を作ることができます。「読む」より「聴く」派の読者にもコンテンツを届けられるようになり、リーチが広がります。
🎬 YouTube・SNS動画のナレーション
動画に乗せるナレーション音声を、テキストを入力するだけで作成できます。自分の声を録音する必要がなく、雑音やノイズの心配もありません。30種類の音声から動画のイメージに合ったものを選べるので、チャンネルの世界観を統一しやすいのも魅力です。
📚 オンライン教材・解説コンテンツ
語学学習や資格試験の解説コンテンツ、企業の社内研修資料など、教育系コンテンツとの相性も抜群です。「Sadaltager(知識的)」「Charon(情報的)」などの音声を使えば、権威感のある分かりやすいナレーションが作れます。
🎙️ ポッドキャスト原稿の音声化
書いたポッドキャストの台本をそのまま音声化できます。複数の音声を使い分けることで、複数人のトーク形式のような雰囲気を演出することも可能です。
🌍 外国語学習コンテンツ
70以上の言語に対応しているため、英語・中国語・フランス語など多言語の学習コンテンツ作成に活用できます。ネイティブに近い発音で読み上げてくれるので、リスニング素材としても活用できます。
💡 こんな方に特におすすめ!
✅ 音声コンテンツを始めたいけど声に自信がない方
✅ 動画制作のコストを抑えたいYouTuber・クリエイター
✅ 多言語コンテンツを展開したい方
✅ テキストのアクセシビリティ(利用しやすさ)を高めたい方
✅ 効率よく大量のナレーション音声を作りたいビジネスパーソン

📋 まとめ
今回はGoogleの最新AI音声生成サービス「Gemini 3.1 Flash TTS」についてご紹介しました。
この記事のポイントを振り返り
✅ 業界最高水準の品質:Artificial Analysis TTSリーダーボードで1,211 Eloスコアを記録
✅ 30種類の豊富な音声:明るい・爽・情報的など用途に合わせて選べる
✅ 感情タグで表現力アップ:[whispers][laughs][excited]などで自然な感情表現が可能
✅ Google AI Studioで無料体験:ブラウザだけでその場ですぐ試せる
✅ 70言語以上に対応:日本語はもちろん、多言語コンテンツにも活用できる
Gemini 3.1 Flash TTSを使えば、これまで「お金も時間もかかる」と諦めていた音声コンテンツ制作が、誰でも手軽に始められます。まずはGoogle AI Studioで無料体験してみてください!
引用
Gemini 3.1 Flash TTS(テキスト読み上げ)プレビュー
https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-tts-preview?hl=ja
・
・
・
🤖 この記事の99%、実はClaudeが書いています
この記事はAIアシスタント「Claude(Anthropic製)」と人間の協力で作成しました。せっかくなので、どこをAIが担当してどこを人間が担当したか公開します!
Claudeに任せたこと
- 記事本文の執筆エージェント作成(参考資料をもとにClaude APIで生成)
- 各セクション用スライド画像のプロンプト設計
- Gemini(Google)の画像生成AI(Gemini nano banana 2) への画像生成指示(Claude in Chromeでブラウザ操作も自動化)
- 生成された画像の品質評価・ベスト選択(Vision APIで自動採点)
- HTMLプレビューファイルの作成
- 記事への画像挿入・ファイル管理
私(人間)が行ったこと
- 記事テーマ・タイトルの最終決定
- キャラクターデザインの指定(紫ヘア×袴スタイルの巫女キャラ)
- 各画像バージョンへのフィードバックと選択(「カラーマンガ版がいい!」など)
- 記事内容の確認・方向性の承認
- Claudeが間違ったことを書いているのをこっそり修正
- このネタバラシセクションを入れようというアイデア 😄
AI×人間の協力で、記事制作の効率が大幅に上がることを実感しています。みなさんもぜひAIツールを活用してみてください!
