長期ノイジー動画からの多粒度対応学習

既存のビデオ言語研究は主に短いビデオクリップの学習に焦点を当てており、長期的な時間依存関係については計算コストが高すぎることからほとんど探索されていません。この問題に対処するための一つの実現可能な解決策は、ビデオクリップとキャプション間の対応関係を学習することですが、これには多粒度ノイジーフォーカス(MNC)問題が避けられません。具体的には、MNCとはクリップ-キャプションのずれ(粗粒度)とフレーム-単語のずれ(細粒度)を指し、これらが時間的な学習やビデオ理解を妨げています。本論文では、統一された最適輸送(Optimal Transport: OT)フレームワークでMNCを解決する「ノイズロバストな時間最適輸送」(NOise Robust Temporal Optimal traNsport: Norton) を提案します。簡単に説明すると、Nortonはビデオ-段落とクリップ-キャプションのコントラスティブ損失を使用して、OTに基づいて長期的な依存関係を捉えます。ビデオ-段落コントラストにおける粗粒度のずれに対処するために、Nortonはアライナブルプロンプトバケットを通じて無関係なクリップとキャプションをフィルタリングし、輸送距離に基づいて非同期なクリップ-キャプションペアを再アラインメントします。細粒度のずれに対処するために、Nortonはソフトマキシマム演算子を使用して重要な単語とキーフレームを特定します。さらに、NortonはOT割り当てによってアラインメント目標を修正することで、クリップ-キャプションコントラストにおける潜在的な誤った負例を利用し、正確な時間モデリングを確保します。ビデオ検索、ビデオQA(Video Question Answering)、アクションセグメンテーションに関する広範な実験により、当手法の有効性が確認されています。コードは以下のURLから入手可能です: https://lin-yijie.github.io/projects/Norton.