2ヶ月前

EgoVideo: エゴセントリック基礎モデルと下流適応の探索

Baoqi Pei; Guo Chen; Jilan Xu; Yuping He; Yicheng Liu; Kanghua Pan; Yifei Huang; Yali Wang; Tong Lu; Limin Wang; Yu Qiao
EgoVideo: エゴセントリック基礎モデルと下流適応の探索
要約

本報告では、CVPR 2024 の EgoVis チャレンジに対する我々の解決策を提示します。これには Ego4D チャレンジの5つのトラックと EPIC-Kitchens チャレンジの3つのトラックが含まれています。ビデオ言語二塔モデルを基盤とし、慎重に整理された第一人称視点ビデオデータを活用することで、EgoVideo という新しい基礎モデルを提案します。このモデルは、第一人称視点ビデオの独自の特性に対応するように特別に設計されており、競技への提出物に対して強力な支援を提供します。Ego4D チャレンジにおいては、自然言語クエリ (Natural Language Queries)、ステップグラウンディング (Step Grounding)、モーメントクエリ (Moment Queries)、短期的な物体相互作用予測 (Short-term Object Interaction Anticipation)、長期的な行動予測 (Long-term Action Anticipation) などの様々なタスクに取り組んでいます。さらに、EPIC-Kitchens チャレンジにも参加し、アクション認識 (Action Recognition)、複数インスタンス検索 (Multiple Instance Retrieval)、ドメイン適応型アクション認識 (Domain Adaptation for Action Recognition) のトラックに挑戦しています。これらの多様なタスクに EgoVideo を適用することで、その汎用性と効果性を示し、第一人称視点ビデオ分析の異なるシナリオにおける EgoVideo の強力な表現能力を証明しています。我々のコードベースと事前学習済みモデルは公開されており、https://github.com/OpenGVLab/EgoVideo からアクセスできます。