17 天前

mPLUG:通过跨模态跳跃连接实现高效且有效的视觉-语言学习

Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si
mPLUG:通过跨模态跳跃连接实现高效且有效的视觉-语言学习
摘要

大规模预训练基础模型已成为构建人工智能(AI)系统的一种新兴范式,能够快速适应多种下游任务。本文提出mPLUG,一种新型的视觉-语言基础模型,兼具跨模态理解与生成能力。现有大多数预训练模型在跨模态对齐过程中,由于视觉序列过长,普遍存在计算效率低下和信息不对称的问题。为解决上述挑战,mPLUG引入了一种高效且创新的视觉-语言架构,采用新颖的跨模态跳跃连接(cross-modal skip-connections),在层间建立捷径,跳过部分网络层,从而避免视觉模态上耗时的全自注意力计算。mPLUG在大规模图像-文本对数据上端到端地进行预训练,同时优化判别式与生成式目标。在多项视觉-语言下游任务中,包括图像描述生成、图文检索、视觉定位和视觉问答等,mPLUG均取得了当前最优性能。此外,mPLUG在直接迁移至多个视频-语言任务时,也展现出强大的零样本迁移能力。