17 天前

UNIMO:通过跨模态对比学习实现统一模态理解与生成

Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu, Jiachen Liu, Hua Wu, Haifeng Wang
UNIMO:通过跨模态对比学习实现统一模态理解与生成
摘要

现有的预训练方法通常仅专注于单模态任务或跨模态任务,难以在两者之间有效迁移与适应。这些方法往往只能利用单模态数据(如文本或图像)或有限的跨模态数据(如图像-文本对)。在本工作中,我们提出了一种统一模态的预训练架构——UNIMO,该架构能够有效适应单模态与跨模态的理解与生成任务。通过利用大规模的自由文本语料库和图像数据集,UNIMO显著提升了模型在视觉与文本理解方面的能力。同时,我们引入跨模态对比学习(Cross-Modal Contrastive Learning, CMCL),在图像-文本对构成的语料库上,将文本与视觉信息对齐至统一的语义空间中。由于非配对的单模态数据资源极为丰富,我们的模型能够基于更大规模的数据学习到更具泛化能力的表示。此外,在统一的语义空间中,文本知识与视觉知识能够相互增强。实验结果表明,UNIMO在多个单模态与跨模态下游任务上均显著提升了性能。我们的代码与预训练模型已公开,详见UNIMO项目主页:https://unimo-ptm.github.io/。