Metaが音楽生成AIモデルをオープンソースで公開、テキスト＆音声入力で誰でも高品質な音楽を作成できるように

2023年6月12日 13時45分

Metaの研究チームが音楽を生成するAIモデル「MusicGen」を公開しました。オープンソースでの公開となっているため誰でも無料でモデルを利用できるほか、作例やデモが公開されており、その品質を実際に確かめることが可能になっています。

[2306.05284] Simple and Controllable Music Generation

https://doi.org/10.48550/arXiv.2306.05284

MusicGen: Simple and Controllable Music Generation

https://ai.honu.io/papers/musicgen/

MusicGenはChatGPTなどの大規模言語モデルと同様にTransformerを利用したモデルです。言語モデルは文の次の言葉を予測しますが、MusicGenは音楽の次のセクションを予測する仕組み。トレーニングには2万時間分のライセンスされた音楽が利用されており、具体的には1万個の内部データセットのほか、ShutterstockとPond5のデータを利用したと述べられています。また、MusicGenを実行するには16GB以上のVRAMを搭載したグラフィックボードが必要です。

生成できる音楽の品質を確かめられるように作例やデモが用意されています。例えば下の音楽は「Pop dance track with catchy melodies, tropical percussion, and upbeat rhythms, perfect for the beach(キャッチーなメロディー、トロピカルなパーカッション、アップビートなリズムのポップダンストラック、ビーチに最適)」という入力を元に生成されています。まさに南国のビーチを想像させる雰囲気に仕上がっており、なかなかの品質と言えそうです。

また、「A grand orchestral arrangement with thunderous percussion, epic brass fanfares, and soaring strings, creating a cinematic atmosphere fit for a heroic battle.(轟音のパーカッション、壮大な金管のファンファーレ、高揚するストリングスを備えた壮大なオーケストラアレンジメント、英雄的な戦いにふさわしい映画的雰囲気を醸し出す)」という入力で生成するとこんな感じに。ゲームのラスボス戦などで流れていても違和感がなさそうな音楽になっています。

そのほか多数の作例がMusicGenの紹介ページに掲載されているので、気になった人は確認してみてください。紹介ページでは別のモデルとの違いも比較可能となっています。

実際にモデルを動かせるデモがHugging Faceにて公開されています。左の入力欄にテキストを入れて「Generate」をクリックすれば12秒の音楽が生成される仕組み。生成した音楽は再生したりダウンロードして保存したりすることが可能です。

いろいろ試してみたところ、自分で考えたオリジナルのプロンプトではどう頑張っても聞くと体調が悪くなるような音楽しか生成できませんでしたが、作例ページからコピーしてきた「a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions」というプロンプトで生成すると一発でちゃんとした音楽が生成されました。

AIが音楽を生成する時代になっても、プロンプトの入力の仕方には音楽的センスが必要ということのようです。