7 天前

mPLUG-2:一种跨文本、图像与视频的模块化多模态基础模型

Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou
mPLUG-2:一种跨文本、图像与视频的模块化多模态基础模型
摘要

近年来,语言、视觉与多模态预训练领域呈现出显著的融合趋势。本文提出了一种全新的统一范式——mPLUG-2,其采用模块化设计,旨在促进模态间的协同作用,同时有效缓解模态纠缠问题。与当前主流方法(仅依赖序列到序列生成或基于编码器的实例判别)不同,mPLUG-2引入了一种多模块组合网络架构:通过共享通用的通用模块实现模态间的协同,同时将不同模态的模块进行解耦,以应对模态纠缠挑战。该架构具有高度灵活性,可根据不同模态(包括文本、图像和视频)下的理解与生成任务,自由选择适配的模块。实证研究表明,mPLUG-2在超过30项下游任务中取得了当前最优或具有竞争力的性能表现,涵盖图像-文本、视频-文本等多模态理解与生成任务,以及纯文本、纯图像和纯视频等单模态理解任务。尤为突出的是,在具有挑战性的MSRVTT视频问答与视频字幕任务上,mPLUG-2以远小于现有模型的参数规模和数据量,实现了48.0的Top-1准确率和80.3的CIDEr得分,刷新了该任务的最新纪录。此外,该模型在视觉-语言与视频-语言任务中展现出强大的零样本迁移能力。相关代码与模型将开源发布于:https://github.com/alibaba/AliceMind。