11일 전
mPLUG-Owl2: 다중 모달 대규모 언어 모델의 혁신적 발전을 위한 모달리티 협업 도입
Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

초록
다중모달 대규모 언어 모델(Multi-modal Large Language Models, MLLMs)은 다양한 개방형 과제에서 놀라운 지시 수행 능력을 보여주었다. 그러나 기존의 방법들은 주로 다중모달 능력 향상에 초점을 맞추고 있었다. 본 연구에서는 텍스트 및 다중모달 과제에서 모두 뛰어난 성능을 발휘하기 위해 모달 간 협업을 효과적으로 활용하는 유연한 다중모달 대규모 언어 모델인 mPLUG-Owl2를 제안한다. mPLUG-Owl2는 언어 디코더를 다양한 모달을 관리하는 통합 인터페이스로 활용하는 모듈형 네트워크 설계를 채택하였다. 구체적으로, 모달 간 협업을 촉진하기 위해 공유 기능 모듈을 도입하였으며, 모달 고유 특징을 보존하기 위해 모달 적응형 모듈을 추가하였다. 광범위한 실험 결과에 따르면, mPLUG-Owl2는 단일 일반 모델로 텍스트 과제와 다중모달 과제 모두에 대해 일반화 가능하며, 최첨단 성능을 달성함을 확인하였다. 특히, mPLUG-Owl2는 순수 텍스트 환경과 다중모달 환경 모두에서 모달 간 협업 현상을 보여주는 최초의 MLLM 모델로, 향후 다중모달 기초 모델 개발에 선도적인 길을 열었다.