17일 전

자기중심 비디오-언어 사전학습

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou
자기중심 비디오-언어 사전학습
초록

비디오-언어 사전학습(VLP)은 다양한 비디오-텍스트 하류 작업의 성능을 향상시키기 위해 전이 가능한 표현을 학습하는 것을 목표로 하며, 최근 점점 더 많은 주목을 받고 있다. 최고의 성능을 기록한 연구들은 대규모의 제3자 시점 비디오-텍스트 데이터셋, 예를 들어 HowTo100M과 같은 데이터셋에 의존해왔다. 본 연구에서는 최근 공개된 Ego4D 데이터셋을 활용하여 세 가지 방향에서 주관적 시점(VLP) 사전학습을 선도적으로 탐구한다. (i) Ego4D 데이터셋에서 신중하게 선별한 380만 개의 클립-텍스트 쌍을 포함하는 1인칭 시점 비디오-텍스트 사전학습 데이터셋인 EgoClip을 구축하였다. 이 데이터셋은 인간의 일상 활동 전반을 포괄한다. (ii) 주관적 시점 환경에 적합하도록 비디오-텍스트 대조 학습을 조정하는 새로운 사전학습 목표인 EgoNCE를 제안한다. 이는 주관적 시점에 민감한 긍정적 및 부정적 샘플을 탐색함으로써 성능을 향상시킨다. (iii) EgoClip과 유사한 환경을 제공함으로써 설계 결정의 효과적인 검증과 빠른 탐색을 가능하게 하는, 개발용 벤치마크인 EgoMCQ를 도입한다. 더불어, EPIC-KITCHENS-100에서의 비디오-텍스트 검색, Charades-Ego에서의 행동 인식, 그리고 Ego4D 챌린지 벤치마크에서의 자연어 질의, 순간 질의, 객체 상태 변화 분류 등 세 가지 데이터셋을 대상으로 한 다섯 가지 주관적 시점 하류 작업에서 뛰어난 성능을 입증하였다. 본 연구의 데이터셋과 코드는 https://github.com/showlab/EgoVLP에서 공개되어 있다.

자기중심 비디오-언어 사전학습 | 최신 연구 논문 | HyperAI초신경