DiffusionVMR: 動画の同時検索とハイライト検出のための拡散モデル

ビデオモーメント検索とハイライト検出は、現在のビデオコンテンツ増加時代において注目を集めています。これらの技術は、ユーザー固有のクエリに基づいて、特定の瞬間を局所化し、クリップの関連性を推定することを目指しています。ビデオコンテンツが時間的に連続しているため、ビデオ内の時系列イベント間に明確な境界が存在しないことがよくあります。この境界の曖昧さにより、モデルがテキストとビデオクリップの対応関係を学習することが難しくなり、既存の手法では目標セグメントを予測する性能が低下します。この問題を緩和するために、我々はノイズ除去生成の観点から両方のタスクを共同で解決することを提案します。さらに、粗い段階から細かい段階へと反復的な改良を行うことで、目標境界を明確に局所化することができます。具体的には、DiffusionVMRという新しいフレームワークを提案します。これは拡散モデルを組み合わせることで、両方のタスクを統一された条件付きノイズ除去生成プロセスとして再定義します。訓練中にはガウシアンノイズが追加され、真値が破壊されます。ノイジーな候補が入力として生成され、モデルはこのノイズ追加プロセスを逆転するように訓練されます。推論フェーズでは、DiffusionVMRは直接ガウシアンノイズから開始し、ノイズから意味のある出力へと段階的に改善を行います。特に注目に値するのは、提案されたDiffusionVMRが推論中に反復的な結果改良を可能にする拡散モデルの利点を受け継いでいることです。これにより粗い段階から細かい段階への境界移行が強化されます。さらに、DiffusionVMRの訓練と推論は分離されています。推論フェーズでは任意の設定を使用でき、訓練フェーズとの一貫性は必要ありません。QVHighlight, Charades-STA, TACoS, YouTubeHighlights, TVSum(5つの広く使用されているベンチマーク)上で実施された包括的な実験結果は、2つのタスク(モーメント検索および/またはハイライト検出)において提案されたDiffusionVMRの効果性と柔軟性を示しています。