- 投稿日:2026/01/20
音声入力、使ってますか?
「精度が悪い」
「使いにくい」
と思っている人、多いと思います。私も1年前まではそうでした。
iPhoneの音声入力を試して「だめだこりゃ」と思った経験、ありませんか?
変換ミスだらけ。句読点が入らない。「えーと」がそのまま入る。結局キーボードで直す方が速い。
でも今は違います。
AIの進化で、音声入力は「使える」レベルを超えて「使わないと損」なレベルになりました。
私は今、1日の文章の7割を音声で入力しています。この記事も、最初の下書きは音声で書きました。
なぜ今、音声入力なのか

タイピングの3〜4倍速い
普通の人のタイピング速度は、1分間に40〜60文字くらいです。
音声入力だと、1分間に150〜200文字。3〜4倍の差があります。
1000文字の文を書くのに、タイピングなら20分。音声入力なら5分。
この差、毎日積み重なると大きいです。
「考えながら書く」に向いている
ブログの下書き、企画書のアイデア出し、メールの返信。
こういう「考えながら書く」作業は、音声の方が圧倒的に楽です。
なぜか?
キーボードだと「打つ」という動作に意識が取られます。変換候補を選んだり、打ち間違いを直したり。
音声だと「話す」だけ。思考がそのまま文字になる感覚です。
腱鞘炎対策にもなる
長時間のタイピングで手首が痛くなる人、結構いますよね。
音声入力を組み合わせると、タイピング時間を半分以下に減らせます。
海外では、腱鞘炎対策として音声入力を使うエンジニアも増えています。
Aqua Voiceとは

Aqua Voiceは、Y Combinator出身のスタートアップが開発した音声入力アプリです。
2024年にリリースされて以来、「音声入力の常識を変えた」と言われています。
何がすごいのか
従来の音声入力との違いを一言で言うと「ストレスがない」。
起動が50ミリ秒以下。ボタンを押した瞬間に録音が始まります。
テキストが表示されるまでも、平均1秒くらい。待たされる感覚がない。
精度が桁違い
「信じられないくらい精度が良い」
これ、実際に使った人がよく言う感想です。
早口で話しても、ちゃんと認識してくれます。多少言いよどんでも、言い直しても、ちゃんとした文章になる。
従来の音声入力と比べて、ミスが17分の1という検証結果もあります。
英語も日本語も自然に
「Visual Studio Code」「GitHub Actions」「API」
こういう技術用語も、ちゃんと認識します。
日本語の中に英語が混ざっても大丈夫。エンジニアにとってはこれが地味に大きい。
「太字にして」で太字になる
これが便利。
「太字にして」と言えば太字になる。「改行して」と言えば改行される。「最後の文を消して」と言えば消える。
キーボードに手を伸ばさなくても、編集作業ができます。
Mac と Windows 両対応
これ、意外と重要です。
音声入力アプリは Mac 専用のものが多いんですが、Aqua Voice は Windows でも使えます。
会社では Windows、自宅では Mac という人にも対応できます。
他にもある選択肢
Aqua Voice だけが選択肢じゃありません。
実は、音声入力アプリはいくつかあって、それぞれ特徴が違います。
「Aqua Voice を使っているけど、他のも気になる」という人向けに、代表的なものを紹介します。
Super Whisper
Aqua Voice と並んで人気なのが Super Whisper です。
最大の特徴は「ローカル処理」。
音声データがクラウドに送信されず、すべて自分のパソコンの中で処理されます。
> 機密情報を扱う仕事の人
> プライバシーが気になる人
> オフライン環境でも使いたい人
こういう人には Super Whisper が向いています。
また、翻訳機能も充実しているので「日本語で話して英語でテキスト化」みたいな使い方もできます。
VoiceInk
比較的新しいアプリで、シンプルさが売り。
設定項目が少なくて、インストールしてすぐ使える。
「とりあえず試してみたい」という人には入りやすいかもしれません。
Mac 標準の音声入力
実は Mac には標準で音声入力機能があります。
設定 → キーボード → 音声入力 で有効にできます。
精度は専用アプリに劣りますが、無料で試せるので「音声入力ってどんな感じ?」を体験するには十分です。
どう使い分けるか
「結局どれがいいの?」という疑問に答えます。
スピード重視なら Aqua Voice
クラウド処理で高速・高精度。
長文のブログ記事、企画書、メールをガシガシ書く人に向いています。
毎日たくさんの文章を書く人は、Aqua Voice の速度の恩恵を一番受けられます。
プライバシー重視なら Super Whisper
データがクラウドに送信されない安心感。
医療、法務、金融など、機密情報を扱う人。
または「自分の音声データを外部に送りたくない」という人。
オフラインでも使えるので、飛行機の中とか、ネット環境が不安定な場所でも使えます。
音声入力を始めるときのハードル
「音声入力、良さそうだけど...」と思っても、始めるのにハードルを感じる人もいると思います。
よくある心配と、その対処法を紹介します。
「周りに人がいると使えない」
これ、一番多い心配です。
オフィスで声を出すのは恥ずかしい。カフェで使うのは迷惑。
対処法は「場所を選ぶ」こと。
在宅勤務の日、個室、車の中。声を出せる環境で使えばいい。
最初から「すべてを音声入力にする」必要はありません。使える場面で使う。それだけでも効果はあります。
「話すのが苦手」
「文章を話すなんてできない」と思う人もいます。
大丈夫です。きれいに話す必要はありません。
「えーと」「あのー」が入っても、アプリが自動で処理してくれます。
コツは「友達に説明するつもりで話す」こと。
「〇〇について説明するとね、まず△△があって、それから□□で...」
こんな感じでOK。あとで整えればいい。
「設定が難しそう」
最近のアプリは、インストールしてすぐ使えるものがほとんどです。
ショートカットキーを押しながら話す。離すとテキストになる。
基本はこれだけ。
細かい設定は、使い慣れてから調整すればいい。
私の使い方
実際にどう使っているか、具体例を紹介します。
メール等の返信処理
以前は30分かかっていた返信が、今は10分で終わります。
返信内容を「声で」考えながらだらだらと入力。
音声入力ツールがフィラーを取ってきれいにしてくれた後、さらにそれを AIが加工してくれるので、なんだか立派な社会人みたいな文章ができます。
タイピングしていた時より、返信が丁寧になりました。
AIのプロンプト
これが一番わたしのメインです。
だらだらとしゃべりまくって、思いついたことをバンバンプロンプトとして流し込めばAIの前提情報が増えるので、良質な結果が返ってきます。
コーディング、記事執筆、壁打ち、何でもこれでやっています。
アイデアのメモ
思いついたことをすぐにメモ。
メモアプリを開いて、音声入力。5秒で終わります。
「あとで書こう」と思って忘れることが減りました。
これをまとめておくと、私の脳内を把握しているAIが爆誕します。
こうなってしまえば、脳とネットをつないだのと変わりありません。
「アイデアがなくて困る」は終わり、
「アイデアを形にするための作業時間が足りなくて困る」
に変わります。
向いていない作業
逆に、音声入力を使わない作業もあります。
> コードを書く
> 表計算
> 細かい編集作業
これらはキーボードの方が効率的。無理に音声入力を使う必要はありません。
音声入力の「裏側」を知りたい人へ
ここまで読んで、音声入力に興味を持った人も多いと思います。
「なんでこんなに精度が上がったの?」「どういう仕組みなの?」
そう思った人向けに、少しだけ技術的な話をします。
実は私、音声入力アプリを自分でも作っています。
そろそろベータ版を公開します。
その経験から、音声入力の「裏側」がどうなっているか、少し見えるようになりました。
音声認識だけじゃない
「音声をテキストに変換する」
これが音声入力の基本ですが、実はそれだけじゃありません。
> 「えーと」「あのー」を消す
> 漢字に変換する
> 句読点を入れる
> 文脈に合った言葉を選ぶ
これらすべてが、AIで処理されています。
Aqua Voice や Super Whisper がすごいのは、これらの処理を「速く」「正確に」やっていること。
クラウド vs ローカル
Aqua Voice はクラウド処理。強力なサーバーで処理するから速くて正確。
Super Whisper はローカル処理。自分のパソコンで処理するからプライバシーが守られる。
どちらが優れているということではなく、トレードオフです。
速度・精度を取るか、プライバシーを取るか。目的に合わせて選ぶのが正解。
日本語特有の難しさ
英語と違って、日本語には「漢字変換」があります。
「きょう」を「今日」にするか「京」にするか「強」にするか。文脈で判断する必要がある。
また、日本語は「スペースで単語を区切らない」ので、どこで区切るかも判断が必要。
最近のAIはこれをかなり正確にやってくれますが、完璧ではありません。
だから「音声入力 + 人間の確認」が大事。下書きは音声、仕上げはキーボード。この組み合わせが最強です。
なぜ自分で音声入力アプリを作ったのか
ここからは完全に余談です。興味がある人だけ読んでください。
私は音声入力アプリを自分で作りました。
「なんで?Aqua Voice とか Super Whisper があるのに?」
そう思いますよね。私も最初はそう思っていました。
きっかけは「日本語」への興味
Aqua Voice も Super Whisper も、もともと英語圏で開発されたツールです。
もちろん日本語にも対応していて、精度も高い。普通に使う分には全く問題ない。
でも、エンジニアとして使い込んでいくうちに、ふと思ったんです。
「日本語に特化したら、もっと面白いことができるんじゃないか?」
英語と日本語は、言語としての構造がかなり違います。
> 漢字変換がある
> スペースで単語を区切らない
> 敬語や言い回しのバリエーションが多い
> 「えーと」「なんか」みたいなフィラーの扱いが複雑
こういう日本語特有の部分を、もっと丁寧に処理したらどうなるのか。
純粋な好奇心でした。
作ってみて初めて分かったこと
実際に作ってみると、想像以上に難しかった。
そして、Aqua Voice や Super Whisper がいかに洗練されているか、身をもって実感しました。
いくつか具体的な例を挙げます。
「ん」が消える問題
音声認識エンジン(Whisper)を使っていると、日本語の「ん」が消えることがあります。
> 「なんだよ」→「なだよ」
> 「なんだけど」→「なだけど」
最初は「自分の発音が悪いのかな」と思っていました。
でも調べてみると、これは Whisper の日本語処理でよく起きるパターンでした。
対策として、後処理で「ん」を復元する仕組みを作りました。
「なだよ」というパターンを検出して「なんだよ」に置換する。地味ですが、効果はありました。
フィラーの扱いが難しい
「えーと」は消してほしい。でも「なんか面白い」の「なんか」は残してほしい。
これ、意外と難しいんです。
単純に「フィラーを消す」だけだと、意味のある言葉まで消えてしまう。
結局、日本語の形態素解析を使って、品詞を判定する仕組みを作りました。
「えーと」は感動詞だから消す。「なんか」は副詞だから残す。
こういう細かい判定が必要でした。
LLM を使う怖さ
音声認識の結果を AI(LLM)で補正する、という機能も作りました。
誤変換を直したり、文章を整えたりする機能です。
でも、これが思った以上に危険だった。
LLM に丸投げすると、勝手に文章を追加したり、意味を変えてしまったりする。
> 入力:「今日は天気がいい」
> 出力:「今日は天気がいいですね。こんな日は外出したくなりますね。」
聞いてないことを勝手に追加される。これは困る。
結局、LLM の出力を検証する仕組みを14種類も作ることになりました。
「元のテキストと離れすぎていたら却下」「危険なパターンが含まれていたら却下」
AI を使うって、思った以上に難しいんだな、と学びました。
設定を減らす決断
開発当初、設定項目を10個以上用意していました。
「カスタマイズできた方が便利だろう」と思って。
でも、使ってみると逆でした。
設定が多すぎて、自分でも最適解が分からない。作った本人が迷うのに、他の人が分かるわけがない。
結局、公開する設定を3つだけに絞りました。
「人によって違う」ものだけ残して、「正解がある」ものは内部で処理する。
この判断は正しかったと思っています。
既存ツールへのリスペクト
自分で作ってみて、改めて思いました。
Aqua Voice も Super Whisper も、本当によくできている。
あの速度、あの精度を実現するために、裏側でどれだけの工夫がされているか。
使っているだけでは分からなかったことが、作ってみて初めて分かりました。
もし「音声入力アプリを作ってみたい」と思っている人がいたら、まず既存ツールを徹底的に使い込むことをおすすめします。
「ここが不満」「ここを改善したい」が明確になってから作り始めた方がいい。
私の場合は「日本語特化」という明確なテーマがあったから、なんとか形になりました。
まとめ
音声入力は「使えない」から「使わないと損」の時代になりました。
> タイピングの3〜4倍速い
> 「考えながら書く」に最適
> 腱鞘炎対策にもなる
アプリの選び方は
> 速さ重視・長文 → Aqua Voice
> プライバシー重視・オフライン → Super Whisper
> まず試したい → PC標準の音声入力
> 迷ったら → 両方入れて使い分け
「音声入力は使えない」と思っている人こそ、一度試してみてほしいです。
私は音声入力を使い始めてから、文章を書くことへの心理的なハードルが下がりました。
「書く」のが億劫だったのが、「話す」だけでいい。この差は大きいです。
初めてのノウハウ図書館執筆でしたが、われながらニッチなところを最初に書いてしまったなと後悔しています。
めげずにもっと濃い内容をこれから書いていこうと思いますが、技術的な部分はまとめてZENNでも投稿し直そうかなと思っています。
質問があればコメントで。
音声入力を使っている人がいたら、どんな使い方をしているか、そして欲を言えば何か欲しい機能があったら教えてくれるとさらに嬉しいです。