いろんな音が混ざった動画や音声から目的の音だけを分離できるAI「SAM Audio」をMetaが公開

Metaが音声分離AI「SAM Audio」を公開しました。SAM Audioには音声や動画を入力可能で、「文章で指示して特定の音を抜き出す」「動画内の『音声を発している被写体』を指定して音声を抜き出す」「動画内の特定のタイミングで鳴っている音を指定して抜き出す」といった操作が可能です。
SAM Audio
https://ai.meta.com/samaudio/
Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation | AI at Meta - YouTube

これで動画内のギターの音だけを分離できます。

動画内の被写体をクリックして、その被写体が発している音だけを抜き出すこともできます。「人間の声」や「電車の音」などが混ざった動画ファイルでも、「人間をクリックして、その人が話している音声だけを抜き出す」という操作が可能です。

さらに、「動画内で鳴っている音のうち、鳥の鳴き声の一部だけを指定して、動画全体の鳥の鳴き声を抜き出す」という操作も実行できます。Metaはこの操作を「Span prompts」と呼んでいます。

MetaはSAM Audioが各種音声分離AIと比べて高性能であることをアピールしています。
SAM Audio represents a significant advancement in audio separation technology, outperforming previous models across a wide range of benchmarks and tasks. pic.twitter.com/86bDoRnc8A— AI at Meta (@AIatMeta) December 16, 2025
SAM Audioのモデルデータは以下のリンク先からダウンロード可能。
sam-audio - a facebook Collection
https://huggingface.co/collections/facebook/sam-audio

また、モデルの使い方などは以下のリンク先にまとまっています。
GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how to use the model.
https://github.com/facebookresearch/sam-audio
