EgoVideo: Egocentric Foundation Model과 Downstream Adaptation의 탐구

본 보고서에서는 CVPR 2024의 EgoVis 챌린지에 제출한 솔루션을 소개합니다. 이는 Ego4D 챌린지의 다섯 개 트랙과 EPIC-Kitchens 챌린지의 세 개 트랙을 포함합니다. 비디오-언어 두 탑 모델을 기반으로 하여 우리의 철저히 정리된 주관적 시점(egocentric) 비디오 데이터를 활용하여, EgoVideo라는 새로운 기초 모델을 제안합니다. 이 모델은 주관적 시점 비디오의 고유한 특성을 고려하여 설계되었으며, 경쟁 참가작품에 대한 강력한 지원을 제공합니다. Ego4D 챌린지에서 우리는 자연어 질의(Natural Language Queries), 단계 지정(Step Grounding), 순간 질의(Moment Queries), 단기 객체 상호작용 예측(Short-term Object Interaction Anticipation), 장기 행동 예측(Long-term Action Anticipation) 등 다양한 과제를 다룹니다. 또한, EPIC-Kitchens 챌린지에도 참여하여 행동 인식(Action Recognition), 다중 인스턴스 검색(Multiple Instance Retrieval), 행동 인식을 위한 도메인 적응(Domain Adaptation for Action Recognition) 등의 트랙에 참여하였습니다. EgoVideo를 이러한 다양한 과제에 적용함으로써, 우리는 이 모델이 다른 주관적 시점 비디오 분석 시나리오에서도 유연성과 효과성을 갖춤을 입증하며, 주관적 시점 기초 모델로서 EgoVideo의 강력한 표현 능력을 보여줍니다. 우리의 코드베이스와 사전 학습된 모델은 https://github.com/OpenGVLab/EgoVideo에서 공개적으로 이용할 수 있습니다.