11 天前
mPLUG-Owl2:通过模态协作革新多模态大语言模型
Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

摘要
多模态大语言模型(MLLMs)在各类开放性任务中已展现出卓越的指令理解能力。然而,以往方法主要侧重于提升模型的多模态感知能力。本文提出一种通用性强的多模态大语言模型——mPLUG-Owl2,该模型通过有效利用模态间的协同作用,在文本任务与多模态任务中均实现了性能提升。mPLUG-Owl2采用模块化网络架构,其中语言解码器作为统一接口,统筹管理不同模态的信息。具体而言,该模型引入共享功能模块以促进模态间协作,并设计了模态自适应模块,以保留各模态特有的特征信息。大量实验结果表明,mPLUG-Owl2具备在文本任务与多模态任务之间良好泛化的能力,仅通过单一通用模型即可实现当前最优性能。尤为突出的是,mPLUG-Owl2是首个在纯文本场景与多模态场景中均展现出模态协同现象的MLLM模型,为未来多模态基础模型的发展开辟了先河。