
要約
我々は、ビデオ理解のための新しいフレームワークである時系列コンテクスト化されたCLIP(TC-CLIP)を提案します。このフレームワークは、ビデオ内の空間時間領域における全体的な相互作用を通じて、重要な時系列情報を活用します。具体的には、Temporal Contextualization(TC)と呼ばれる層ごとの時系列情報注入機構を導入しました。これは、1) 各フレームから核心的な情報を抽出し、2) フレーム間で関連する情報を接続してコンテクストトークンに要約し、3) コンテクストトークンを特徴エンコーディングに利用するというプロセスを行います。さらに、Video-conditional Prompting(VP)モジュールがコンテクストトークンを処理し、テキストモダリティでの情報豊富なプロンプトを生成します。ゼロショット学習、ファーソット学習、ベースからノベルへの行動認識、完全教師あり行動認識における広範な実験により、当モデルの有効性が検証されています。TCとVPに関するアブレーションスタディも当設計選択を支持しています。ソースコード付きのプロジェクトページは https://github.com/naver-ai/tc-clip で利用可能です。