HyperAIHyperAI

Command Palette

Search for a command to run...

TempCLR: コントラスティブ学習を用いた時系列アライメント表現

Yuncong Yang† Jiawei Ma† Shiyuan Huang Long Chen Xudong Lin Guangxing Han Shih-Fu Chang

概要

ビデオ表現学習は、ゼロショット転移のためのビデオ-テキスト事前学習で成功を収めています。この方法では、各文が共通の特徴空間内で対応するビデオクリップに近づくように訓練されます。長時間のビデオの場合、文がビデオの異なるセグメントを説明する記述文がある段落について、すべての文-クリップペアをマッチングすることで、段落と全体のビデオが暗黙的にアラインメントされます。しかし、このような単位レベルでの比較は、全体的な時間的コンテクストを見逃す可能性があり、これが一般化能力を制限してしまうことがあります。本論文では、全ビデオと段落を明示的に比較するコントラスティブ学習フレームワーク TempCLR(Temporal Contrastive Learning Framework)を提案します。ビデオ/段落はクリップ/文のシーケンスとして定式化され、その時間的順序の制約下で、動的時間伸縮法 (Dynamic Time Warping) を使用して文-クリップペア間の最小累積コストを計算し、シーケンスレベルでの距離を求めます。時間的ダイナミクスを探求するために、時間粒度に基づいてビデオクリップをシャッフルすることで時間的連続性の一貫性を破ります。これにより、時間的情報を感じ取るクリップ/文の表現を得ることができ、シーケンスアラインメントが促進されます。また、ビデオと段落に対する事前学習だけでなく、当手法はビデオインスタンス間のマッチングにも一般化できます。我々は当手法をビデオリトリーバル、アクションステップ局所化、および少量ショットアクション認識において評価し、これら3つのタスク全てで一貫した性能向上を達成しました。詳細な削減研究も提供しており、手法設計の正当性を検証しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています