11일 전

VLMo: 다중 모달 전문가 혼합을 활용한 통합형 시각-언어 사전학습

Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei
VLMo: 다중 모달 전문가 혼합을 활용한 통합형 시각-언어 사전학습
초록

우리는 모듈형 Transformer 네트워크를 활용하여 이중 인코더와 융합 인코더를 함께 학습하는 통합형 시각-언어 사전학습 모델(VLMo)을 제안한다. 구체적으로, 각 블록에 모달리티별 전문가(Experts)의 집합과 공유되는 자기주의(attention) 레이어를 포함하는 다모달 전문가 혼합(Mixture-of-Modality-Experts, MoME) Transformer를 도입한다. MoME의 모델링 유연성 덕분에 사전학습된 VLMo는 시각-언어 분류 작업을 위한 융합 인코더로 미세조정할 수 있으며, 효율적인 이미지-텍스트 검색을 위한 이중 인코더로도 활용할 수 있다. 또한 이미지-텍스트 쌍 외에도 대규모의 이미지 전용 및 텍스트 전용 데이터를 효과적으로 활용하는 단계별 사전학습 전략을 제안한다. 실험 결과 VLMo는 VQA, NLVR2 및 이미지-텍스트 검색을 포함한 다양한 시각-언어 작업에서 최신 기준(SOTA) 성능을 달성하였다. 코드 및 사전학습된 모델은 https://aka.ms/vlmo에서 제공된다.

VLMo: 다중 모달 전문가 혼합을 활용한 통합형 시각-언어 사전학습 | 최신 연구 논문 | HyperAI초신경