- 投稿日:2024/11/24
- 更新日:2024/12/04

この記事は約19分で読めます
要約
OpenAIのwhisperについて書き起こしの精度を詳しく検証しています。日本語でも実用レベルで書き起こしができるので優秀でした。興味を持ってくれた方は他の記事で使い方も紹介しているので、参考にしてください。
whisperの検証
この記事では、OpenAIが出している動画ファイルや音声ファイルから書き起こしができるAIの検証をしています。使い方や詳細は、こちらの記事で詳しく解説しています。
whisperは多言語の書き起こしに対応しており、日本語でもかなり高い精度でした。モデルは「turbo」や「medium」で簡単に実用レベルの書き起こしが可能です。
モデルごとの出力結果と時間、オプション設定を入れたときの結果を載せました。使用するときの参考にしてください。
12/4 出力された文章をAIに修正させる応用編を追加しました。
モデルごとの違い
モデルは以下の6種類です。モデルの後ろの時間は1分の音声の処理にかかった時間を表します。
・tiny
・base
・small
・medium
・turbo
・large
動画は、リベ大ショート動画のパープレキシティAIをもとに出したものです。約1分で420文字程度の内容となります。誤字を黒太字にしました。読みやすくするために改行していますが、実際の文章は改行なしです。

続きは、リベシティにログインしてからお読みください