11일 전
SimVLM: 약한 지도 신호를 활용한 간단한 시각-언어 모델 사전 훈련
Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao

초록
최근 시각 및 텍스트 표현의 공동 모델링 기술이 급속도로 발전함에 따라, 시각-언어 사전학습(Vision-Language Pretraining, VLP)은 다양한 다중모달 하류 작업에서 놀라운 성능을 달성하고 있다. 그러나 기존 방법들은 깨끗한 이미지 캡션과 지역 레이블을 포함한 고가의 애너테이션을 요구함으로써 확장성에 한계를 가지며, 여러 데이터셋별 목적함수를 도입함으로써 사전학습 절차를 더욱 복잡하게 만든다. 본 연구에서는 이러한 제약을 완화하고, 단순한 사전학습 프레임워크인 '간단한 시각-언어 모델(Simple Visual Language Model, SimVLM)'을 제안한다. 기존 연구와 달리 SimVLM은 대규모 약한 지도 신호를 활용하여 학습 복잡도를 줄이며, 단일 프리픽스 언어 모델링 목적함수를 통해 엔드 투 엔드로 학습된다. 추가 데이터나 작업별 맞춤형 조정 없이도, 기존 사전학습 방법들을 크게 능가하며 다양한 분류형 및 생성형 시각-언어 벤치마크에서 새로운 최고 성능을 기록하였다. 특히, VQA(+3.74% VQA 스코어), NLVR2(+1.17% 정확도), SNLI-VE(+1.37% 정확도), 이미지 캡션 생성 작업(+10.1% 평균 CIDEr 스코어)에서 뚜렷한 성능 향상을 보였다. 더불어 SimVLM이 강력한 일반화 및 전이 능력을 갖추고 있음을 입증하며, 개방형 시각 질문 응답 및 다중 모달 간 전이와 같은 제로샷(zero-shot) 행동을 가능하게 함을 보였다.