テキストに加えてメロディやテンポなど時間的変化がある要素もコントロール可能な音楽生成モデル「Music ControlNet」が開発される

2023年11月15日 21時0分

近年はテキストから音楽を生成するAIツールが進歩を遂げ、さまざまなスタイルで高品質の音楽を生成できるようになっていますが、従来のテキストによる生成ではビートの位置や音楽のダイナミクス(強弱)など、時間と共に変化する属性を制御するのが難しかったとのこと。そこでカーネギーメロン大学とAdobe Researchの研究チームが、複数の時間的変化コントロールを可能にする音楽生成モデル「Music ControlNet」を発表しました。

[2311.07069] Music ControlNet: Multiple Time-varying Controls for Music Generation

https://arxiv.org/abs/2311.07069

Music ControlNet

https://musiccontrolnet.github.io/web/

以前からテキストを基に音楽を生成するAIモデルは多数登場しており、Metaはテキストから音楽や効果音を生成するオープンソースツール「AudioCraft」も発表しています。しかし、研究チームは「テキストによるコントロールは主に、ジャンルやムード、テンポといった全体的な音楽属性の操作に適しており、ビートの時間的な配置や音楽の強弱の変化など、時間と共に変化する属性を正確に制御するにはあまり適していません」と述べています。

そこで研究チームは、オーディオについて複数の時間的属性のコントロールを提供する拡散モデルをベースにした音楽生成モデル「Music ControlNet」を開発しました。Music ControlNetでは、テキストから音楽を生成するモデルに時間的制御を組み込むために、「ControlNet」というニューラルネットワークに類似したアプローチを採用しているとのこと。

ControlNetは事前学習済みのモデルに対して輪郭線や深度、画像の領域区分(セグメンテーション)情報などを追加して出力をサポートする技術で、画像生成モデルと組み合わせることで生成画像の品質を向上させることができます。研究チームはこれを画像ではなく、音楽を生成するモデルに適用したというわけです。

「Music ControlNet」がどのような音楽生成モデルになっているのかは、以下の動画を見るとわかります。

Music ControlNet: Multiple Time-varying Controls for Music Generation - YouTube

従来のテキストから音楽を生成するモデルでは、単に「Powerful rock(パワフルなロック)」といったテキストを基に、それらしい音楽をAIが生成していました。