OmniVL: 이미지-언어 및 비디오-언어 작업을 위한 하나의 기초 모델

이 논문은 이미지-언어 및 비디오-언어 작업을 하나의 통합 아키텍처를 사용하여 지원할 수 있는 새로운 기초 모델인 OmniVL을 제안한다. OmniVL은 이미지와 비디오 입력 모두에 대해 통합된 트랜스포머 기반 시각 인코더를 채택하여, 이미지-언어 및 비디오-언어 작업을 동시에 사전 훈련할 수 있다. 기존의 단방향 전이 방식(예: 이미지-언어 모델을 활용해 비디오-언어 작업을 지원하는 것)과는 달리, 본 연구는 처음으로 이러한 통합적 접근이 이미지 작업과 비디오 작업 양쪽 모두에 긍정적인 영향을 미친다는 것을 실험적으로 입증한다. 이를 위해 우리는 시각-언어 모델링을 공간적 차원과 시간적 차원으로 효과적으로 분리할 수 있도록, 이미지-언어 및 비디오-언어 작업을 분리하여 공동 사전 훈련하는 방법을 제안한다. 이로 인해 이미지 및 비디오 작업 모두에서 성능 향상이 가능해진다. 또한, 이미지-텍스트, 비디오-텍스트, 이미지-라벨(예: 이미지 분류), 비디오-라벨(예: 비디오 동작 인식) 데이터를 통합적으로 활용할 수 있도록, 새로운 통합 시각-언어 대조 손실(Uniform Vision-Language Contrastive, UniVLC)을 도입한다. 이를 통해 감독된 데이터뿐 아니라 노이즈가 포함된 감독 데이터도 최대한 활용할 수 있다. 추가적인 작업별 어댑터 없이도 OmniVL은 시각적 단일 작업(예: 이미지 분류, 비디오 동작 인식), 다중 모달 정렬 작업(예: 이미지/비디오-텍스트 검색), 다중 모달 이해 및 생성 작업(예: 이미지/비디오 질의응답, 캡셔닝)을 동시에 지원할 수 있다. 다양한 하류 작업에서 OmniVL을 평가한 결과, 유사한 모델 크기와 데이터 규모를 기준으로 최신 기술(SOTA) 수준 또는 경쟁력 있는 성능을 달성하였다.