11 天前

mPLUG-Owl:模块化赋能大语言模型实现多模态能力

Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
mPLUG-Owl:模块化赋能大语言模型实现多模态能力
摘要

大规模语言模型(Large Language Models, LLMs)在多种开放式任务中展现出令人瞩目的零样本能力,而近期研究也逐步探索了将LLMs应用于多模态生成的潜力。在本研究中,我们提出了一种新颖的训练范式——mPLUG-Owl,该范式通过模块化学习基础LLM、视觉知识模块(visual knowledge module)和视觉抽象模块(visual abstractor module),赋予LLMs强大的多模态能力。这一方法能够支持多种模态,并通过模态间的协同作用,实现多样化的单模态与多模态能力。mPLUG-Owl的训练范式采用两阶段图像与文本对齐策略:在第一阶段,冻结LLM模块,分别训练视觉知识模块与视觉抽象模块,以实现图像与文本的对齐;在第二阶段,利用仅语言数据和多模态监督数据,联合微调LLM与视觉抽象模块中的低秩适配(Low-Rank Adaptation, LoRA)模块,同时冻结视觉知识模块,从而在保留甚至提升LLM生成能力的前提下,有效融合视觉信息。为系统评估模型的视觉理解与指令遵循能力,我们精心构建了一个与视觉相关的指令评估数据集——OwlEval。实验结果表明,mPLUG-Owl在多项基准测试中显著优于现有主流多模态模型,充分展现了其在指令理解、视觉感知、多轮对话以及知识推理等方面的卓越性能。此外,我们还观察到一些意料之外且令人振奋的潜在能力,例如多图像关联理解与场景文本识别能力,这为模型在更复杂真实场景中的应用提供了可能,例如仅依赖视觉信息的文档理解任务。目前,mPLUG-Owl的代码、预训练模型、指令微调模型及评估数据集均已开源,可通过以下链接获取:https://github.com/X-PLUG/mPLUG-Owl 在线演示版本也可在魔搭社区访问:https://www.modelscope.cn/studios/damo/mPLUG-Owl