(画像: YouTubeより)

写真拡大

 日本マイクロソフトがLINE上で運用している「りんな」というAIがある。この「りんな」は女子高生であると設定され、歌唱機能も与えられているのだが、このたびその機能が改良され、より人間に近い自然な歌唱が可能になった。

【こちらも】マイクロソフトの女子高生AI「りんな」、感情乗せた自然な歌声を実現

 理屈だけ聞くより実際に聴いてみる方が早いので、公開された「最高新記憶」という曲を聴いてみたのだが、驚くほどに自然で人間に近いというか、知らなければ人間の歌声だと判断してしまうであろうくらいには自然である。その昔Vocaloidが登場したときにも色々な驚きがあったものだが、今や人工音声技術はここまで来たのかと隔世の感深い。

 りんなが歌唱機能を与えられたのは今回が初めてというわけではない。2016年に「MC RINNA」というラップの曲、2018年に「りんなだよ」というバラードの曲が発表されている。ただこれらは、それぞれ1種類のみの歌唱スタイルが使用されている。今回の刷新では、曲調によって歌唱スタイルを使い分けることが可能になり、より高い表現力を得ることができたのだという。ちなみに「最高新記憶」には、「バラード」「ポップ」「ロック」の3種類の歌唱スタイルが採用されている。

 人間らしい歌声に聴こえる秘訣は、人間の持つ「ブレス」(息継ぎ音)の再現が鍵であったという。歌声の中に息遣いによる表現をもたらし、人間にとってより自然に聴こえる歌声が生成可能になったのだ。実際の人間の歌声データから抽出したブレス音の長さや強さをディープニュートラルネットワークに学習させ、歌の歌詞などに合わせてブレス音を予測し、歌声を作成したという。

 なお、りんなは「AIアーティスト」としてエイベックス・エンタテインメントとレコード契約し、今後とも音楽活動を続けていく予定であるという。