【合成音声サンプルを聴いてみよう】音声処理における世界最大規模の国際会議で「りんな」(rinna社)の音声合成技術の論文が採択

写真拡大

rinna株式会社は、音声処理における世界最大規模の国際会議「INTERSPEECH 2022
」において、rinna社の音声合成技術に関する2本の論文が採択されたことを発表する。第23回目となるINTERSPEECH 2022は本年9月に韓国仁川で開催される予定。
この記事では最新の音声合成サンプルの高いレベルをぜひ確認して頂きたい。

一定した口調の音声合成は、人間と区別がつかない品質まで向上している。しかし、人間による実際の音声対話では、様々な発話スタイルや、笑い声、息継ぎなど言語では表せない発声が混在。
この論文では、二人の自発的対話を収録し、その発話スタイルを再現する音声合成システムを提案した。提案手法では、対話の履歴を考慮し、相手の発声に同調した音声を合成できる。さらに、様々なバリエーションの相づち、笑い声の合成や、息継ぎの合成も実現できる。この技術は、チャットボットのテキスト対話の拡張となる音声対話への活用が期待されている。

●発話の音声サンプル

サンプル1:

スピーカー 1: 「あ、なんかそういう打楽器って専門が決まってるわけじゃないんだ。」
サンプル: https://tinyurl.com/yckz9yks

サンプル2:

スピーカー 2: 「うふふふふ!きな粉の量多すぎない?あれ。」
サンプル: https://tinyurl.com/3vdtwsfn

対話の音声サンプル1:

スピーカー 1: 「なんか、ハマってる沼とかありますかー?」
スピーカー 2: 「うん。」
スピーカー 2: 「沼かー。もうでも沼っていうほどつかってる、」
スピーカー 1: 「うん。」
スピーカー 1: 「つかってる。」
スピーカー 2: 「あの分野は今はないかも。」
サンプル: https://tinyurl.com/3czvwc6m

対話の音声サンプル2:

スピーカー 1: 「あははははは!そうだよねえ。」
スピーカー 2: 「そう知らない情報もやっぱ2倍聞けるしおんなじ時間でも。」
スピーカー 1: 「うんうんうんうん!」
スピーカー 1: 「そっかあ。」
スピーカー 2: 「そうそれがねなんかね良かったことだなあ、最近だと。」
スピーカー 1: 「そうだよなんか、こんなに楽しいっけみたいな。なるよね?」
サンプル: https://tinyurl.com/2p8mbutc

こちらでも多数のパターンのサンプルが視聴できる。

音声の解像度に当たるサンプリングレート(※1)は、音声の品質において重要な役割を果たす。この論文では、低いサンプリングレートから段階的に音声を合成することにより、音声合成の品質が向上することを示している。
また、サンプリングレートを段階的に予測するという特徴から、低いサンプリングレートで収録された音声データと高いサンプリングレートで収録した音声データを混ぜて音声合成モデルを学習することができる。この手法により、収録フォーマットが異なる音声データを大量に利用することが可能となり、高精度な音声合成モデルの学習が期待できる。
※1:1秒間に実行する標本化処理の回数。サンプリング周波数。

●採用論文

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue:

(自発的対話を用いた発話スタイルの潜在表現に基づくEnd-to-End音声合成法)
執筆者:三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)
音声サンプル:https://rinnakk.github.io/research/publications/DialogueTTS/

(敬称略)

MSR-NV: Neural Vocoder Using Multiple Sampling Rates:

(MSR-NV: 複数のサンプリングレートを用いたニューラルボコーダ)
執筆者:三井健太郎、沢田慶
音声サンプル:https://rinnakk.github.io/research/publications/MSR-NV/

●rinna社のリサーチチームの取り組み