16일 전

FLAVA: 기초 언어 및 비전 정렬 모델

Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela

초록

최신의 시각 및 시각-언어 모델은 다양한 후속 작업에서 우수한 성능을 얻기 위해 대규모 시각-언어 사전 학습에 의존하고 있다. 일반적으로 이러한 모델은 교차 모달(대조적) 또는 다중 모달(조기 융합) 중 하나이지만 둘 다는 아니며, 종종 특정 모달 또는 작업에만 초점을 맞추고 있다. 보다 유망한 방향은 모든 모달을 동시에 타깃으로 삼는 단일 통합형 보편 모델, 즉 '기반(foundation)' 모델을 사용하는 것이다. 진정한 시각-언어 기반 모델은 시각 작업, 언어 작업, 그리고 교차 모달 및 다중 모달 시각-언어 작업 모두에서 뛰어난 성능을 보여야 한다. 본 연구에서는 이러한 특성을 갖춘 모델인 FLAVA를 제안하며, 이러한 타깃 모달을 아우르는 35개의 다양한 작업에서 뛰어난 성능을 입증하였다.