자기중심 비디오-언어 사전학습

비디오-언어 사전학습(VLP)은 다양한 비디오-텍스트 하류 작업의 성능을 향상시키기 위해 전이 가능한 표현을 학습하는 것을 목표로 하며, 최근 점점 더 많은 주목을 받고 있다. 최고의 성능을 기록한 연구들은 대규모의 제3자 시점 비디오-텍스트 데이터셋, 예를 들어 HowTo100M과 같은 데이터셋에 의존해왔다. 본 연구에서는 최근 공개된 Ego4D 데이터셋을 활용하여 세 가지 방향에서 주관적 시점(VLP) 사전학습을 선도적으로 탐구한다. (i) Ego4D 데이터셋에서 신중하게 선별한 380만 개의 클립-텍스트 쌍을 포함하는 1인칭 시점 비디오-텍스트 사전학습 데이터셋인 EgoClip을 구축하였다. 이 데이터셋은 인간의 일상 활동 전반을 포괄한다. (ii) 주관적 시점 환경에 적합하도록 비디오-텍스트 대조 학습을 조정하는 새로운 사전학습 목표인 EgoNCE를 제안한다. 이는 주관적 시점에 민감한 긍정적 및 부정적 샘플을 탐색함으로써 성능을 향상시킨다. (iii) EgoClip과 유사한 환경을 제공함으로써 설계 결정의 효과적인 검증과 빠른 탐색을 가능하게 하는, 개발용 벤치마크인 EgoMCQ를 도입한다. 더불어, EPIC-KITCHENS-100에서의 비디오-텍스트 검색, Charades-Ego에서의 행동 인식, 그리고 Ego4D 챌린지 벤치마크에서의 자연어 질의, 순간 질의, 객체 상태 변화 분류 등 세 가지 데이터셋을 대상으로 한 다섯 가지 주관적 시점 하류 작업에서 뛰어난 성능을 입증하였다. 본 연구의 데이터셋과 코드는 https://github.com/showlab/EgoVLP에서 공개되어 있다.