Netflixとブルガリア・ソフィア大学の研究チームが動画編集フレームワーク「Video Object and Interaction Deletion(VOID)」を発表しました。従来の削除手法は背景の補完や外観の修正には優れていましたが、物体同士の複雑な物理的接触が絡むシーンでは不自然な結果を招くことが多く、VOIDはこうした課題を解決するために設計されました。

[2604.02296] VOID: Video Object and Interaction Deletion

https://arxiv.org/abs/2604.02296

VOID: Video Object and Interaction Deletion

https://void-model.github.io/

従来の動画オブジェクト削除手法は、削除されたオブジェクトの背後にある背景を補完したり、影や反射といった外観上の違和感を修正したりすることには長けていました。しかし、削除対象が他の物体と衝突していたり支えていたりする場合、既存のモデルでは不自然な結果を生じることが多くあります。VOIDはこのような複雑なシナリオにおいて、物理的に妥当なカウンタファクチュアル(反事実的)な動画を生成することを目的として開発されました。

つまり、VOIDは「動画から物体を消した際に、その物体がいなければ周囲はどう動くはずかという物理的な因果関係をシミュレートできる」という点が最大の特徴。たとえば、ドミノ倒しの動画(左)で列の真ん中にあるドミノをVOIDで消去すると、編集後の映像(右)では後のドミノが倒れずに残ります。



プールに人が飛び込んで大きな水しぶきが上がる動画(左2枚)から、人だけを消去した映像をVOIDで編集(右2枚)すると、水しぶきも上がらず浮き輪もほとんど動きません。



VOIDは視覚と言語を統合したモデル(VLM)を活用したQuadmaskという仕組みを導入しています。ユーザーが削除したいオブジェクトを数点クリックして指定するとVLMがそのシーンの文脈を推論し、物体が落下する軌道や衝突が回避されるエリアなど、オブジェクトの削除によって影響を受ける領域を特定します。そして、その領域が従来のトリマスクを拡張した4色(白、黒、薄い灰色、濃い灰色)のクアッドマスクとして符号化され、動画拡散モデルに詳細なピクセル空間のガイダンスを提供します。



VOIDは、CogVideoXという50億パラメータの拡散トランスフォーマーをベースに構築されています。1つ目のパスでは、VLMの導きに従って物理的に妥当な反事実的な軌道や動きを生成します。さらに、生成された動画に物体の歪みや変形(モーフィング)が生じるのを防ぐため、2つ目のパス「Flow-Warped Noise Stabilization」を備えています。これは、1つ目のパスで予測された動きに基づき、時間的に相関させたノイズを用いることで、新たに合成された軌道に沿って物体の形状を安定させる仕組みです。



モデルの学習には、物理シミュレーションエンジンKubricを用いた剛体力学データ約1900組と、人間の動作キャプチャデータHUMOTOを活用したデータ約4500組が使用されています。これらのデータを学習に用いることにより、VOIDは未知のシーンに対しても高い汎化性能を示すとのこと。たとえば、「風船を持っている人を削除したら、風船が飛ぶ」だったり「スイッチを押す人自体を削除すると、ミキサーが動かなくなる」といった、学習データには直接含まれていない物理現象もVLMの知識と組み合わせて適切に処理して動画に反映させることが可能です。



VOIDは記事作成時点で学術的なプレプリント論文として公開されており、研究コミュニティ向けの技術公開という段階。Hugging Faceではデモが公開されています。

VOID - a Hugging Face Space by sam-motamed

https://huggingface.co/spaces/sam-motamed/VOID

また、VOIDのソースコードはGitHubで、Apache 2.0ライセンスのもとで公開されています。

Netflix/void-model

https://github.com/Netflix/void-model