Googleが自社の音声生成AIの現状の能力について、ブログ記事を投稿しました。

Pushing the frontiers of audio generation - Google DeepMind

https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/



Googleは2024年9月、論文や書籍の内容を要約してポッドキャスト風の会話音声に変換する「Illuminate」をリリースするとともに、AIを活用したメモ作成アプリ「NotebookLM」に会話音声で概要を説明する機能を追加しました。

こうした「数十秒を超える」「複数の話者が登場する」「会話が自然」などの特徴を備えた音声を生成できるようになったのは長年にわたる研究のおかげとのこと。2021年8月に登場したSoundStreamという手法によって韻律や音色などの情報を維持して音声を再構築できるようになり、2022年10月に登場したAudioLMという手法のおかげで音声生成タスクを音響トークンを生成する言語モデリングタスクとして扱うことが可能になりました。

そして2023年6月に登場したSoundStormにおいて、複数の話者が登場する自然な30秒間の会話を生成する能力が実証されました。2024年10月時点では、2分間の音声を生成することも可能とのこと。なお、2分間の音声を生成するのにかかる時間はTPU v5eチップで3秒未満となっており、実際に録音する場合に比べて40倍以上のスピードで音声を生成できます。



実際に生成された音声の例はこんな感じ。「ねえ、Google DeepMindの音声生成の成果について聞いた?」「いや、見逃していたよ」のような会話が生成されています。

ダウンロード

複数の話者によるリアルな会話を生成する能力を向上させるため、モデルは数十万時間分の音声データで事前トレーニングを行った後、多数の声優による台本のない会話および「えー」「あー」などのフィラーが入った音声データで構成される小規模なデータセットでファインチューニングを行ったとのこと。こうして会話の中で話者を確実に切り替えたり、適切な間やトーンを備えた音声を出力したりすることが可能になりました。

なお、母語が日本語の編集部員としてはネイティブの会話と区別がつかないものの、英語ネイティブにとっては生成された会話に違和感を覚えるようで、「聞いていて非常にイライラする」「用意された台本を読んでいるように聞こえる」などの意見が散見されました。