MERLOT Reserve: 비전과 언어 및 음성을 통한 신경망 스크립트 지식

우리는 인간으로서 다중모달 세계 속을 탐색하며 모든 감각을 종합적으로 활용해 포괄적인 이해를 형성합니다. 우리는 오디오, 자막, 영상 프레임을 통해 시간에 따라 영상을 공동으로 표현하는 모델인 MERLOT Reserve를 소개합니다. 주어진 영상에서 텍스트 및 오디오 조각을 MASK 토큰으로 대체하고, 모델은 마스킹된 조각을 올바르게 추론하는 방식으로 학습합니다. 제안하는 학습 목표는 기존 대안보다 빠르게 학습되며, 대규모에서 우수한 성능을 발휘합니다. 본 연구에서는 2,000만 개의 유튜브 영상으로 사전학습을 수행했습니다.실증 결과에 따르면, MERLOT Reserve는 강력한 다중모달 표현을 학습합니다. 미세조정(fine-tuning) 후, Visual Commonsense Reasoning(VCR), TVQA, Kinetics-600에서 최고 성능을 기록하며, 각각 기존 방법보다 5%, 7%, 1.5% 우수한 성능을 보였습니다. 제거 실험(ablation study) 결과, 오디오 사전학습이 이들 작업에 긍정적인 영향을 미친다는 점을 확인할 수 있었으며, 이는 오디오 없이 이미지 중심의 질문-응답(QA) 작업인 VCR에서도 마찬가지였습니다. 더불어, 제안된 학습 목표는 즉시 예측(in-the-box prediction)이 가능하게 하여 강력한 다중모달 일반지식 이해 능력을 드러냅니다. 완전한 제로샷(Zero-shot) 설정에서도 네 가지 영상 작업에서 경쟁력 있는 성능을 보였으며, 최근 제안된 Situated Reasoning(STAR) 벤치마크에서는 지도학습 기반 접근법을 뛰어넘는 성능을 달성했습니다.또한, 오디오가 시각-언어 표현을 향상시키는 이유를 분석하며, 향후 연구에 있어 큰 잠재력을 제시합니다. 마지막으로, 다중모달 사전학습의 윤리적 및 사회적 영향에 대해 논의합니다.