画像生成AI「Stable Diffusion」の開発元として知られるStability AIが、オープンソースの音楽生成AI「Stable Audio Open」を公開しました。Stable Audio Openは、文章で指示するだけで最長47秒の音楽を生成できます。

Stable Audio Open - Stability AI

https://stability.ai/news/introducing-stable-audio-open





Stable Audio Openはテキストから音楽を生成できるAIで、「Rock beat played in a treated studio, session drumming on an acoustic kit(スタジオで収録されたロックビート、アコースティックキットでのセッションドラム)」といったテキストから指示通りの音楽を生成できます。生成できる音楽は最長47秒で、短いオーディオサンプルやサウンドエフェクトなどの用途を想定しているとのこと。Stable Audio Openで生成した音楽の例は以下のムービーで確認できます。

無料の音楽生成AI「Stable Audio Open」で生成できる音楽の例 - YouTube

Stability AIは2024年4月に商用音楽生成AI「Stable Audio 2.0」をリリースしています。Stability AIはStable Audio OpenとStable Audio 2.0の違いについて「Stable Audio 2.0では最長3分の音楽を生成可能で、音楽の補間機能やマルチパートの音楽生成といった高度な機能も備えている。一方で、Stable Audio Openは楽曲全体の生成には最適化されておらず、オーディオサンプルやサウンドエフェクト、プロダクションといった用途に適している」と説明しています。

文章で指示するだけで音楽を作れる音楽生成AI「Stable Audio 2.0」が登場したので使ってみた - GIGAZINE



また、Stable Audio Openは著作権に関する問題を回避するために、8967件のCC-BYコンテンツと4907件のCC0コンテンツを用いて学習しているとのこと。

Stable Audio Openのモデルデータは、以下のリンク先で公開されています。

stabilityai/stable-audio-open-1.0 · Hugging Face

https://huggingface.co/stabilityai/stable-audio-open-1.0