11일 전

mPLUG-Owl2: 다중 모달 대규모 언어 모델의 혁신적 발전을 위한 모달리티 협업 도입

Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl2: 다중 모달 대규모 언어 모델의 혁신적 발전을 위한 모달리티 협업 도입
초록

다중모달 대규모 언어 모델(Multi-modal Large Language Models, MLLMs)은 다양한 개방형 과제에서 놀라운 지시 수행 능력을 보여주었다. 그러나 기존의 방법들은 주로 다중모달 능력 향상에 초점을 맞추고 있었다. 본 연구에서는 텍스트 및 다중모달 과제에서 모두 뛰어난 성능을 발휘하기 위해 모달 간 협업을 효과적으로 활용하는 유연한 다중모달 대규모 언어 모델인 mPLUG-Owl2를 제안한다. mPLUG-Owl2는 언어 디코더를 다양한 모달을 관리하는 통합 인터페이스로 활용하는 모듈형 네트워크 설계를 채택하였다. 구체적으로, 모달 간 협업을 촉진하기 위해 공유 기능 모듈을 도입하였으며, 모달 고유 특징을 보존하기 위해 모달 적응형 모듈을 추가하였다. 광범위한 실험 결과에 따르면, mPLUG-Owl2는 단일 일반 모델로 텍스트 과제와 다중모달 과제 모두에 대해 일반화 가능하며, 최첨단 성능을 달성함을 확인하였다. 특히, mPLUG-Owl2는 순수 텍스트 환경과 다중모달 환경 모두에서 모달 간 협업 현상을 보여주는 최초의 MLLM 모델로, 향후 다중모달 기초 모델 개발에 선도적인 길을 열었다.

mPLUG-Owl2: 다중 모달 대규모 언어 모델의 혁신적 발전을 위한 모달리티 협업 도입 | 최신 연구 논문 | HyperAI초신경