8ヶ月前

概要

ビデオ表現学習は、ゼロショット転移のためのビデオ-テキスト事前学習で成功を収めています。この方法では、各文が共通の特徴空間内で対応するビデオクリップに近づくように訓練されます。長時間のビデオの場合、文がビデオの異なるセグメントを説明する記述文がある段落について、すべての文-クリップペアをマッチングすることで、段落と全体のビデオが暗黙的にアラインメントされます。しかし、このような単位レベルでの比較は、全体的な時間的コンテクストを見逃す可能性があり、これが一般化能力を制限してしまうことがあります。本論文では、全ビデオと段落を明示的に比較するコントラスティブ学習フレームワーク TempCLR（Temporal Contrastive Learning Framework）を提案します。ビデオ/段落はクリップ/文のシーケンスとして定式化され、その時間的順序の制約下で、動的時間伸縮法 (Dynamic Time Warping) を使用して文-クリップペア間の最小累積コストを計算し、シーケンスレベルでの距離を求めます。時間的ダイナミクスを探求するために、時間粒度に基づいてビデオクリップをシャッフルすることで時間的連続性の一貫性を破ります。これにより、時間的情報を感じ取るクリップ/文の表現を得ることができ、シーケンスアラインメントが促進されます。また、ビデオと段落に対する事前学習だけでなく、当手法はビデオインスタンス間のマッチングにも一般化できます。我々は当手法をビデオリトリーバル、アクションステップ局所化、および少量ショットアクション認識において評価し、これら3つのタスク全てで一貫した性能向上を達成しました。詳細な削減研究も提供しており、手法設計の正当性を検証しています。

ソースPDF コードを表示