7일 전

mPLUG-2: 텍스트, 이미지 및 비디오 간의 모듈화된 다중모달 기초 모델

Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou
mPLUG-2: 텍스트, 이미지 및 비디오 간의 모듈화된 다중모달 기초 모델
초록

최근 몇 년간 언어, 비전, 다중 모달 사전 학습 분야에서 큰 융합이 이루어지고 있다. 본 연구에서는 다중 모달 사전 학습을 위한 모듈화된 설계를 가진 새로운 통합적 패러다임인 mPLUG-2를 제안한다. 이는 모달 간 협업을 유도하면서도 모달의 얽힘 문제를 해결할 수 있도록 설계되었다. 기존의 순서 기반 시퀀스-투-시퀀스 생성 또는 인스턴스 구분 기반 인코더 중심의 주류 패러다임과 달리, mPLUG-2는 공통적인 보편적 모듈을 공유하여 모달 간 협업을 가능하게 하고, 각 모달에 특화된 모듈을 분리함으로써 모달의 얽힘 문제를 해결하는 다중 모듈 조합 네트워크를 도입하였다. 이로 인해 텍스트, 이미지, 비디오 등 모든 모달에 대해 다양한 이해 및 생성 작업에 따라 유연하게 서로 다른 모듈을 선택할 수 있다. 실증적 실험 결과, mPLUG-2는 이미지-텍스트 및 비디오-텍스트 이해 및 생성을 포함한 30개 이상의 다양한 하류 작업에서 최신 기준(SOTA) 또는 경쟁력 있는 성능을 달성하였다. 특히, 도전적인 MSRVTT 비디오 질의응답(QA) 및 비디오 캡셔닝 작업에서 각각 48.0의 top-1 정확도와 80.3의 CIDEr 점수를 기록하며, 훨씬 더 작은 모델 크기와 데이터 규모에도 불구하고 새로운 최고 성능을 보였다. 또한 시각-언어 및 비디오-언어 작업에서 뛰어난 제로샷 전이 능력을 입증하였다. 코드 및 모델은 https://github.com/alibaba/AliceMind 에 공개될 예정이다.