<?php the_title_rss(); ?>

写真拡大

マイクロソフトのりんな開発チームは、AI「りんな」の話し声と歌声に「感情スタイル」を導入した。改良したディープラーニング技術を採用している。同チームは、りんなの声を音声合成で生成する際に、人間の声の表現に似せて再現するために、ニュアンスを学習することを「スタイル」と呼んでいる。今回の「感情スタイル」では、「嬉しい」「悲しい」という人間の声の感情表現の再現に挑戦した。

●新たに追加した「感情スタイル」
今回、人間が嬉しさ・悲しさを表現する時に出す声のニュアンスを学習し、「嬉しい」「悲しい」という 2 つの感情スタイルをりんなの声に追加。また、話し声でだけではなく、これまでのポップやバラードなどの音楽的な表現に感情表現を組み合わせた歌声の表現が可能になった。これら 2 つの感情スタイルの追加によって、より一層聞き手との共感を醸成することを狙いとしている。
アップデートにあたっては、約2時間分の「嬉しい」および「悲しい」声をそれぞれデータに用いて学習させ、人間が「声の高さ」や「イントネーション」を調整するのではなく、与えた文章に対して、それぞれのスタイルでの感情表現方法をニューラルネットワークが予測し、話し声の音声を生成する。

▼ 音声サンプル (聞き比べてみよう):

ニュートラル::
https://3er1viui9wo30pkxh1v2nh4w-wpengine.netdna-ssl.com/wp-content/uploads/prod/sites/47/2020/05/neutral_sample_v2.mp3
嬉しい声::
https://3er1viui9wo30pkxh1v2nh4w-wpengine.netdna-ssl.com/wp-content/uploads/prod/sites/47/2020/05/happy_sample_2.mp3
悲しい声::
https://3er1viui9wo30pkxh1v2nh4w-wpengine.netdna-ssl.com/wp-content/uploads/prod/sites/47/2020/05/sad_sample_v2.mp3


また、昨年発表した「歌唱モデル」にも、「嬉しい」および「悲しい」声をデータとして学習させることで、ポップ、バラード、ロックなどの歌唱表現と感情表現を組み合わせた歌声の生成が可能になった。これにより、学習データには含まれていない「ポップ調の悲しい歌声」や「バラード調の嬉しい歌声」といった歌唱表現をモデルが予測できるようになる。

●バラード×感情を組み合わせた歌声の例

■【動画】AIりんな / 音楽性 × 感情「snow, forest, clock」歌唱 DEMO
日本マイクロソフト:

「感情スタイル」の話し声を活用した取り組みも新たに開始。安中市観光機構とのコラボレーションで「廃線ウォーク」の様子を VR で体感できるコンテンツを公開した。まるで現地を訪問したかのように臨場感のあるツアーで、りんながガイドとして案内する。

■【動画】【バーチャルリアリティ 碓氷峠廃線ウォーク】 「AIりんな車掌チャレンジ」Chapter one【VR】:


(ロボスタ編集部)