VindLU: 효과적인 비디오-언어 사전학습을 위한 조리법

최근 몇 년간 영상-언어(VidL) 이해 분야에서는 놀라운 진전이 이루어졌다. 그러나 대부분의 최신 VidL 접근법은 복잡하고 전문화된 모델 아키텍처와 정교한 사전 훈련 프로토콜을 사용하여, 이러한 프레임워크의 재현성, 분석 및 비교가 어렵게 만들고 있다. 따라서 이번 논문은 또 다른 새로운 VidL 모델을 제안하는 대신, VidL 모델 설계에서 가장 중요한 요소들을 체계적으로 실험적으로 탐구하는 연구를 수행한다. 본 연구에서 다루는 요소들은 (i) 공간-시간 아키텍처 설계, (ii) 다중모달 융합 방식, (iii) 사전 훈련 목적함수, (iv) 사전 훈련 데이터의 선택, (v) 사전 훈련 및 미세조정 프로토콜, 그리고 (vi) 데이터셋 및 모델 규모 확장 등이다. 실험적 분석을 통해 가장 중요한 설계 요소로는 시간적 모델링, 영상-텍스트 다중모달 융합, 마스킹 기반 목적함수, 그리고 이미지와 영상의 공동 훈련이 확인되었다. 이러한 실험적 통찰을 바탕으로, 효과적인 VidL 사전 훈련을 위한 단계별 절차를 제안하며, 이를 VindLU라 명명한다. 본 연구에서 제안한 절차를 사용하여 훈련된 최종 모델은 외부 CLIP 사전 훈련 모델에 의존하지 않고도 여러 VidL 작업에서 최신 기술(SOTA) 수준 또는 그 이상의 성능을 달성하였다. 특히 텍스트-영상 검색 작업에서 DiDeMo에서는 61.2%, ActivityNet에서는 55.0%의 성능을 기록하며, 기존 SOTA보다 각각 7.8%, 6.1% 높은 성능을 보였다. 또한 ActivityNet-QA, MSRVTT-QA, MSRVTT-MC, TVQA에서 영상 질의응답(task) 분야에서도 최신 기술 수준의 성능을 달성하였다. 본 연구의 코드 및 사전 훈련된 모델은 공개되어 있으며, 아래 링크에서 확인할 수 있다: https://github.com/klauscc/VindLU.