Metaが音声分離AI「SAM Audio」を公開しました。SAM Audioには音声や動画を入力可能で、「文章で指示して特定の音を抜き出す」「動画内の『音声を発している被写体』を指定して音声を抜き出す」「動画内の特定のタイミングで鳴っている音を指定して抜き出す」といった操作が可能です。

SAM Audio

https://ai.meta.com/samaudio/

Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation | AI at Meta - YouTube

SAM Audioは音声だけでなく動画も入力することが可能です。音楽セッションを記録した動画からギターの音だけを抜き出したい場合は、テキストで「guitar」と指示します。



これで動画内のギターの音だけを分離できます。



動画内の被写体をクリックして、その被写体が発している音だけを抜き出すこともできます。「人間の声」や「電車の音」などが混ざった動画ファイルでも、「人間をクリックして、その人が話している音声だけを抜き出す」という操作が可能です。



さらに、「動画内で鳴っている音のうち、鳥の鳴き声の一部だけを指定して、動画全体の鳥の鳴き声を抜き出す」という操作も実行できます。Metaはこの操作を「Span prompts」と呼んでいます。



MetaはSAM Audioが各種音声分離AIと比べて高性能であることをアピールしています。





SAM Audioのモデルデータは以下のリンク先からダウンロード可能。

sam-audio - a facebook Collection

https://huggingface.co/collections/facebook/sam-audio



また、モデルの使い方などは以下のリンク先にまとまっています。

GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.

https://github.com/facebookresearch/sam-audio