NVIDIAがオーディオ生成の画期的なAI研究モデル「Fugatto」発表 文字入力だけで音楽・音声・サウンドの組合せも生成

写真拡大

NVIDIAの生成AI研究者チームが、ユーザーがテキストだけで音声出力を制御できる音の万能ツールを開発した。

これまでのAIモデルの中には、曲を作曲したり音声を変更したりするものもあったが、同社は「この新しいモデルほど多機能なモデルはない」としている。どの辺が画期的なのか詳しく見てみたい。

●プロンプト(文字)で入力した音楽・音声・サウンドの任意の組合せを生成または変換

Fugatto (Foundational Generative Audio Transformer Opus 1の略) と呼ばれるこのモデルは、テキストと音声ファイルの任意の組み合わせを使用して、プロンプトで記入された音楽、音声、サウンドの任意の組み合わせを生成または変換する。

例えば、テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、これまで聞いたことのないサウンドを生成したりすることも可能だ。

マルチプラチナムプロデューサー兼ソングライターであり、最先端のスタートアップ企業向けのNVIDIA InceptionプログラムのメンバーであるOne Take Audioの共同創設者、Ido Zmishlany氏は「これは素晴らしい。サウンドは私のインスピレーションであり、私が音楽を作る原動力です。スタジオでまったく新しいサウンドを即座に作成できるというアイデアは、斬新です」と述べている。

●オーディオの生成および変換をサポート

NVIDIAの応用オーディオ研究マネージャーであり、Fugattoの開発に携わった10人以上のスタッフの1人で、さらにオーケストラの指揮者兼作曲家でもあるRafael Valle (ラファエル ヴァレ)氏は「私たちは、人間のようにサウンドを理解して生成するモデルを作りたかったのです」と語る。

多数のオーディオ生成および変換タスクをサポートするFugattoは、様々なトレーニング済みの能力の相互作用から生じる創発特性と、自由形式の指示を組み合わせる機能を備えた、最初の基盤生成AIモデル。

「Fugatto は、大規模なデータとモデルからオーディオ合成および変換における教師なしマルチタスク学習が生まれる未来に向けた第一歩です」ともValle氏は話している。

●ユースケースのサンプルプレイリスト

例えば、音楽プロデューサーは Fugattoを使用して、様々なスタイル、声、楽器を試しながら、歌のアイデアをすばやく試作したり編集したりできる。また、エフェクトを追加したり、既存のトラックの全体的なオーディオ品質を向上させたりすることも可能だ。

前出のIdo Zmishlany氏は「音楽の歴史はテクノロジの歴史でもあります。エレキギターは世界にロックンロールをもたらしました。サンプラーが登場すると、ヒップホップが生まれました。AI によって、私たちは音楽の次の章を書き始めています。私たちは新しい楽器、音楽を作るための新しいツールを手に入れました。これはとてもエキサイティングなことです」とも話している。

広告代理店は、Fugattoを適用して、既存のキャンペーンを複数の地域や状況にすばやくターゲティングし、ナレーションに様々なアクセントや感情を適用することができる。

言語学習ツールは、話者が選択した任意の声を使用するようにパーソナライズできる。例えば、家族や友人の声で話されるオンラインのコースを想像してほしい。

ビデオゲーム開発者は、このモデルを使用して、タイトル内の録音済みアセットを変更し、ユーザーがゲームをプレイするときに変化するアクションに合わせることができる。または、テキストの説明とオプションの音声入力から新しいアセットをその場で作成することもできるとしている。

●楽しい音を生み出す