VATT: 원시 비디오, 오디오 및 텍스트에서 다중모달 자기지도 학습을 위한 트랜스포머

우리는 복합 모달리티의 비정형 데이터로부터 다중 모달 표현을 학습하기 위한 프레임워크를 제안한다. 구체적으로, 본 연구에서 제안하는 비디오-오디오-텍스트 트랜스포머(VATT)는 원시 신호를 입력으로 받아 다양한 하류 작업에 유용한 풍부한 다중 모달 표현을 추출한다. VATT는 다중 모달 컨트라스티브 손실을 사용하여 끝에서 끝까지(end-to-end) 초기 상태에서부터 훈련하며, 비디오 동작 인식, 오디오 이벤트 분류, 이미지 분류, 텍스트-비디오 검색 등의 하류 작업을 통해 성능을 평가한다. 또한, 세 가지 모달리티 간에 가중치를 공유함으로써 모달리티에 의존하지 않는 단일 백본(tranformer) 아키텍처를 탐구한다. 실험 결과, 컨볼루션 없는 VATT는 하류 작업에서 최신의 컨볼루션 네트워크(ConvNet) 기반 아키텍처를 능가함을 입증한다. 특히, VATT의 비전 트랜스포머는 감독 학습 전훈련 없이 Kinetics-400에서 82.1%, Kinetics-600에서 83.6%, Kinetics-700에서 72.7%, Moments in Time에서 41.1%의 상위 1위 정확도를 달성하며 각각 새로운 기록을 수립하였다. 이미지 분류 작업으로 전이 학습할 경우, 동일한 트랜스포머를 초기 상태에서 훈련한 경우의 64.7% 대비 ImageNet에서 78.7%의 상위 1위 정확도를 기록하며, 비디오와 이미지 간의 도메인 갭에도 불구하고 본 모델의 일반화 능력을 입증한다. 또한, VATT의 오디오 트랜스포머는 감독 전훈련 없이 오디오 세트(AudioSet)에서 웨이브포름 기반 오디오 이벤트 인식 작업에서 mAP 39.4%를 달성하며 새로운 기록을 수립하였다. VATT의 소스 코드는 공개되어 있다.