2달 전
자기 감독 다중 모드 범용 네트워크
Jean-Baptiste Alayrac; Adrià Recasens; Rosalia Schneider; Relja Arandjelović; Jason Ramapuram; Jeffrey De Fauw; Lucas Smaira; Sander Dieleman; Andrew Zisserman

초록
비디오는 다중 모드 감독의 풍부한 출처입니다. 본 연구에서는 비디오에 자연스럽게 존재하는 세 가지 모드(시각, 청각, 언어 스트림)를 활용하여 자기 지도 학습을 통해 표현을 학습합니다. 이를 위해 우리는 여러 모드를 처리할 수 있으며, 그 표현이 여러 모드에서의 하류 작업을 가능하게 하는 다중 모드 범용 네트워크(multimodal versatile network)의 개념을 소개합니다. 특히, 시각적과 청각적 모드의 미세한 표현을 유지하면서도 텍스트를 공통 임베딩으로 통합하는 방법에 대해 탐구합니다. 범용성을 기반으로, 우리는 비디오나 정적 이미지 형태의 시각적 데이터에 쉽게 적용할 수 있는 새로운 디플레이션(deflation) 과정도 소개합니다. 이러한 네트워크는 라벨이 부착되지 않은 대규모 비디오 데이터로 훈련되어 비디오, 비디오-텍스트, 이미지 및 오디오 작업에 적용될 수 있음을 보여줍니다. 이러한 표현을 이용하면 UCF101, HMDB51, Kinetics600, AudioSet 및 ESC-50 등 다양한 어려운 벤치마크에서 이전 자기 지도 학습 연구와 비교해 최고 성능을 달성하였습니다. 우리의 모델은 공개적으로 이용 가능합니다.