mPLUG-Owl:模块化赋能大语言模型实现多模态能力

大规模语言模型(Large Language Models, LLMs)在多种开放式任务中展现出令人瞩目的零样本能力,而近期研究也逐步探索了将LLMs应用于多模态生成的潜力。在本研究中,我们提出了一种新颖的训练范式——mPLUG-Owl,该范式通过模块化学习基础LLM、视觉知识模块(visual knowledge module)和视觉抽象模块(visual abstractor module),赋予LLMs强大的多模态能力。这一方法能够支持多种模态,并通过模态间的协同作用,实现多样化的单模态与多模态能力。mPLUG-Owl的训练范式采用两阶段图像与文本对齐策略:在第一阶段,冻结LLM模块,分别训练视觉知识模块与视觉抽象模块,以实现图像与文本的对齐;在第二阶段,利用仅语言数据和多模态监督数据,联合微调LLM与视觉抽象模块中的低秩适配(Low-Rank Adaptation, LoRA)模块,同时冻结视觉知识模块,从而在保留甚至提升LLM生成能力的前提下,有效融合视觉信息。为系统评估模型的视觉理解与指令遵循能力,我们精心构建了一个与视觉相关的指令评估数据集——OwlEval。实验结果表明,mPLUG-Owl在多项基准测试中显著优于现有主流多模态模型,充分展现了其在指令理解、视觉感知、多轮对话以及知识推理等方面的卓越性能。此外,我们还观察到一些意料之外且令人振奋的潜在能力,例如多图像关联理解与场景文本识别能力,这为模型在更复杂真实场景中的应用提供了可能,例如仅依赖视觉信息的文档理解任务。目前,mPLUG-Owl的代码、预训练模型、指令微调模型及评估数据集均已开源,可通过以下链接获取:https://github.com/X-PLUG/mPLUG-Owl 在线演示版本也可在魔搭社区访问:https://www.modelscope.cn/studios/damo/mPLUG-Owl