Googleの人工知能開発部門「DeepMind」が開発を進めてきた、人工音声を生成するニューラルネットワーク「WaveNet」がGoogleの音声アシスタント「Googleアシスタント」に搭載されました。これにより、英語と日本語の2言語でより自然な人工音声が利用できるようになります。

WaveNet launches in the Google Assistant | DeepMind

https://deepmind.com/blog/wavenet-launches-google-assistant/

The Google Assistant, powering our new family of hardware

https://www.blog.google/products/assistant/google-assistant-powering-our-new-family-hardware/

DeepMindが開発を進めてきたWaveNetは、人工音声の生成レベルをワンランク上にレベルアップさせる技術。以下のサンプル集では、既存のTTS音声とWaveNetによる音声サンプルが公開されており、英語の音声3パターンと、日本語の音声1パターンを新旧で比較することが可能です。(合計4パターンの比較あり。スマートフォンの場合はスクロールすれば確認できます)

.iframe-content{width:100% !important;overflow:auto !important;-webkit-overflow-scrolling:touch !important;}

WaveNetと既存の人工音声の最も大きな点が、その生成技術にあります。既存の人工音声で用いられているテキスト・トゥ・テキスト(TTS)技術では、基本的に細切れにされた大量の音声データベースを用意した上でこれらの単語をつなぎ合わせる技術だったのに対して、WaveNetでは、畳み込みニューラルネットワークによるディープラーニング技術を使うことで、サンプリングした人間の音声波形を細かく細分化して解析し、自然な発話に近い声を生成するというものとなっています。



より人間に近い形で音声を再現することで、WaveNetは自然な発音やアクセント、文章全体のイントネーションを実現しているのですが、最新のニューラルネットワーク技術を使うため、これまでのWaveNetでは0.2秒の音声を生成するのに約1秒かかっていたとのこと。つまり、話す内容の5倍の時間を事前の準備に要するとのことで、なかなか実用的とは言えない状況でした。そこでDeepMindは約12か月かけて新たな音声合成モデルを開発。その結果、1秒で20秒分の音声を合成するという性能、つまり初期に比べて1000倍もの高速化に成功しているとのこと。



また、音声の自然さのレベルも向上しているとのこと。人間が音声などのメディアの品質を評価する手法の一つ「平均オピニオン評点」(Mean-Option-Score)では、4300点前後のスコアを記録し、いずれも従来の技術のスコアを上回っています。ちなみに、人間が本当に発した声の評価点は4667点とのこと。



WaveNetを使った人工音声は、Google Home MiniやGoogle Home Max、Pixel phone、Pixelbook/Pixelbook Pen、Pixel Budsなど、Googleアシスタントを搭載するハードウェアに実装されているとのこと。今後はさらにAndroidスマートフォンへの導入も進むものと考えられます。DeepMindによる研究論文は以下のリンクから閲覧することが可能です。

WAVE NET: A GENERATIVE MODEL FOR RAW AUDIO 1609.03499.pdf

https://arxiv.org/pdf/1609.03499.pdf