11일 전
VLMo: 다중 모달 전문가 혼합을 활용한 통합형 시각-언어 사전학습
Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei

초록
우리는 모듈형 Transformer 네트워크를 활용하여 이중 인코더와 융합 인코더를 함께 학습하는 통합형 시각-언어 사전학습 모델(VLMo)을 제안한다. 구체적으로, 각 블록에 모달리티별 전문가(Experts)의 집합과 공유되는 자기주의(attention) 레이어를 포함하는 다모달 전문가 혼합(Mixture-of-Modality-Experts, MoME) Transformer를 도입한다. MoME의 모델링 유연성 덕분에 사전학습된 VLMo는 시각-언어 분류 작업을 위한 융합 인코더로 미세조정할 수 있으며, 효율적인 이미지-텍스트 검색을 위한 이중 인코더로도 활용할 수 있다. 또한 이미지-텍스트 쌍 외에도 대규모의 이미지 전용 및 텍스트 전용 데이터를 효과적으로 활용하는 단계별 사전학습 전략을 제안한다. 실험 결과 VLMo는 VQA, NLVR2 및 이미지-텍스트 검색을 포함한 다양한 시각-언어 작업에서 최신 기준(SOTA) 성능을 달성하였다. 코드 및 사전학습된 모델은 https://aka.ms/vlmo에서 제공된다.