大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。

[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

https://arxiv.org/abs/2306.07691



GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

https://github.com/yl4579/StyleTTS2



StyleTTS 2で生成した音声は以下のデモページで聞くことができます。

Audio Samples from StyleTTS 2

https://styletts2.github.io/

デモページ冒頭ではStyleTTS 2、JETS、VITS、StyleTTSで合成した英語の読み上げ音声を聞くことができます。いずれもスムーズに読み上げていますが、StyleTTS 2で読み上げた音声は4種類の中で抑揚が一番しっかりとついています。一部の単語のアクセントでやや怪しい部分はあるものの、発音はなめらかでいかにも機械というような音声ではなく、本当に人間が読み上げたものであるような印象を受けます。



StyleTTS 2が合成するデフォルト音声は女性の声質で、基本的にはこの声質で音声が生成されます。さらにこの声質生成にスタイルを設定することで、読み上げ音声に「怒り」「ハッピー」「悲しい」「驚き」といった感情をのせることも可能だとのこと。



なお、ソーシャルニュースサイトのHacker Newsでは、このStyleTTS 2にWhisperやOpenHermes2-Mistral-7Bを組み合わせて、100%ローカルで動作する音声チャットボットのデモが投稿されています。ただし、動作するにはNVIDIA GPUが必要となっています。

Chirpy Personal AI - Microsoft Apps

https://apps.microsoft.com/detail/chirpy-personal-ai/9NC624PBFGB7