人間らしい音声の合成を目指して感情の表現も可能なオープンソースの読み上げAI「StyleTTS 2」が登場

2023年11月22日 9時45分

大規模音声言語モデル(SLM)と拡散モデルによる敵対的学習を利用して、人間レベルの読み上げ音声を合成できるText-to-Speech AI「StyleTTS 2」を、コロンビア大学の研究者らが開発しました。StyleTTS 2は参照する音声を必要とせず、読み上げるテキストに最適なスタイルを生成し、ネイティブスピーカーと同じくらいなめらかに英語を読み上げることが可能です。[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through

記事を読む

ランキング