キーワードを入力するだけで動画から該当箇所を切り抜くセマンティック検索「SentrySearch」

キーワードにマッチする動画を検索するのは容易ですが、動画の中からキーワードにマッチするワンシーンを切り出すのは非常に困難です。この処理をAIで行うプロセスが公開されています。
GitHub - ssrajadh/sentrysearch: Semantic search over videos using Gemini Embedding 2. · GitHub
https://github.com/ssrajadh/sentrysearch
デモ映像が以下。「サイクルキャリア付きの車が割り込んできた」という検索ワードにマッチするシーンを表示しています。
自然言語で動画のワンシーンを検索して切り抜く「SentrySearch」 - YouTube
上に挙げた2つのモデルはキャプションや文字起こしといった中間処理を挟まず直接動画を処理できるモデルです。この処理により、何時間にも及ぶ映像に対して1秒未満で検索を実行できるとのこと。Geminiは1秒あたり正確に1フレームを抽出してトークン化して処理します。
Gemini Embedding APIで1時間の動画をインデックス化するには2.84ドル(約450円)のコストが必要。Qwen3-VL-Embeddingだと無料です。
デフォルトでは30秒ごとに分割され、それぞれ前後のシーンと5秒間の重複があるよう設定されています。検索したいシーンが前後2つのシーンにまたがる場合は検索がうまくいかず、開発者は「もっと高度なシーン検出などで改善できるかも」としています。
