11 天前

VLMo:基于模态专家混合的统一视觉-语言预训练

Hangbo Bao, Wenhui Wang, Li Dong, Qiang Liu, Owais Khan Mohammed, Kriti Aggarwal, Subhojit Som, Furu Wei
VLMo:基于模态专家混合的统一视觉-语言预训练
摘要

我们提出了一种统一的视觉-语言预训练模型(VLMo),该模型通过模块化的Transformer网络联合学习一个双编码器(dual encoder)和一个融合编码器(fusion encoder)。具体而言,我们引入了多模态专家混合(Mixture-of-Modality-Experts, MoME)Transformer架构,其中每个网络模块包含一组针对特定模态的专家(modality-specific experts)以及一个共享的自注意力层。由于MoME架构具有高度的建模灵活性,预训练的VLMo模型可被微调为用于视觉-语言分类任务的融合编码器,也可直接作为双编码器用于高效的图像-文本检索任务。此外,我们提出了一种分阶段预训练策略,能够有效利用大规模的纯图像数据、纯文本数据以及图像-文本配对数据。实验结果表明,VLMo在多个视觉-语言任务上均取得了当前最优性能,涵盖视觉问答(VQA)、自然语言视觉推理2.0(NLVR2)以及图像-文本检索等任务。相关代码与预训练模型已公开,可通过 https://aka.ms/vlmo 获取。