画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。

Introducing Whisper

https://openai.com/blog/whisper/

GitHub - openai/whisper

https://github.com/openai/whisper

Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセントの会話」といった音声のサンプルが用意されており、「REVEAL TRANSCRIPT」をクリックするとWhisperで文字起こした結果を確認できます。

Whisperは英語以外の音声を3分の1含む音声データでトレーニングされており、日本語やフランス語、韓国語など英語以外の言語の文字起こしにも対応しています。文字起こしの精度は言語ごとに異なりますが、言語ごとの単語誤り率を示した以下のグラフを確認すると日本語の単語誤り率は6.4%でWhisperが対応している言語の中でもかなり高い精度での文字起こしが可能なことが分かります。なお、以下の画像をクリックするとグラフの全体図を閲覧できます。

OpenAIは、Whisperのモデルデータやソースコードを公式GitHubリポジトリで公開しています。また、Google製のPython実行環境「Colaboratory」を用いたデモも公開されており、Googleアカウントさえあれば手軽にデモを実行できます。

LibriSpeech.ipynb - Colaboratory

https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb