올인원: 통합 영상-언어 사전 학습 탐구

주류의 비디오-언어 사전학습 모델들 \cite{actbert,clipbert,violet} 은 비디오 인코더, 텍스트 인코더, 비디오-텍스트 융합 트랜스포머의 세 가지 구성 요소로 이루어져 있다. 이러한 모델들은 더 무거운 단모달 인코더 또는 다모달 융합 트랜스포머를 활용함으로써 성능을 향상시키려는 시도를 하며, 이로 인해 파라미터 수가 증가하고 하류 작업에서의 효율성이 낮아지는 문제가 발생한다. 본 연구에서는 처음으로 엔드 투 엔드 방식의 비디오-언어 모델인 \textit{올인원 트랜스포머}를 제안한다. 이 모델은 통합된 백본 아키텍처를 사용하여 원시 비디오 신호와 텍스트 신호를 공동 표현으로 임베딩한다. 우리는 비디오 데이터가 지닌 고유한 시간 정보가 모달리티 무차별 트랜스포머 설계를 방해하는 핵심적인 장애 요소임을 주장한다. 이를 극복하기 위해, 비디오 클립의 시간 정보를 비파라미터 방식으로 인코딩할 수 있는 새로운 효과적인 토큰 롤링 연산을 도입한다. 세심하게 설계된 이 방법은 단일 모달 입력과 다모달 입력 모두에 대해 통합된 백본 모델을 사용하여 표현 학습이 가능하게 한다. 사전학습된 올인원 트랜스포머는 미세조정을 거쳐 다양한 하류 비디오-텍스트 작업에 전이되며, 텍스트-비디오 검색, 비디오 질의 응답, 다지선다 문제, 시각적 일반지식 추론 등이 포함된다. 9개의 데이터셋에서 최소한의 모델 FLOPs로 최신 기술 수준의 성능을 달성함으로써, 제안한 방법이 경쟁 기법들에 비해 뛰어난 우수성을 입증한다. 코드와 사전학습된 모델은 https://github.com/showlab/all-in-one 에 공개되어 있다.