X$^2$-VLM: 시각-언어 작업을 위한 통합 사전 학습 모델

시각-언어 사전학습은 방대한 데이터로부터 시각과 언어 간의 정렬(alignments)을 학습하는 것을 목표로 한다. 기존 대부분의 방법들은 이미지-텍스트 간의 정렬만을 학습한다. 일부 방법들은 사전에 학습된 객체 탐지기(object detector)를 활용하여 객체 수준에서의 시각-언어 정렬을 활용한다. 본 논문에서는 통합적인 사전학습 프레임워크를 제안하여 다중 해상도(multi-grained)의 시각-언어 정렬을 동시에 다중 해상도 정렬과 다중 해상도 위치 추정(multi-grained localization)을 학습함으로써 학습한다. 이를 기반으로, 이미지-텍스트 사전학습과 동영상-텍스트 사전학습을 하나의 모델 안에서 통합할 수 있는 유연한 모듈형 아키텍처를 갖춘 종합형 모델인 X$^2$-VLM을 제안한다. X$^2$-VLM은 다양한 텍스트 설명과 연관된 무제한의 시각적 개념을 학습할 수 있다. 실험 결과, 이미지-텍스트 및 동영상-텍스트 작업 모두에서 기준 모델 및 대규모 모델에서 최고의 성능을 보이며, 성능과 모델 크기 사이에서 우수한 균형을 달성한다. 또한, X$^2$-VLM의 모듈형 설계가 다양한 언어나 도메인으로의 전이 가능성을 높임을 보여준다. 예를 들어, 텍스트 인코더를 단순히 XLM-R로 교체함으로써, 다국어 사전학습 없이도 최신의 다국어 다중 모달 사전학습 모델들을 능가하는 성능을 달성할 수 있다. 코드 및 사전학습된 모델은 https://github.com/zengyan-97/X2-VLM 에서 공개되어 있다.