2 个月前
Unicoder-VL:通过跨模态预训练实现视觉与语言的通用编码器
Gen Li; Nan Duan; Yuejian Fang; Ming Gong; Daxin Jiang; Ming Zhou

摘要
我们提出了一种名为Unicoder-VL的通用编码器,旨在通过预训练的方式学习视觉和语言的联合表示。借鉴了跨语言预训练模型(如XLM和Unicoder)的思想,视觉和语言内容都被输入到一个多层Transformer中进行跨模态预训练。在此过程中,采用了三种预训练任务,包括掩码语言建模(Masked Language Modeling, MLM)、掩码对象分类(Masked Object Classification, MOC)和视觉-语言匹配(Visual-linguistic Matching, VLM)。前两项任务基于视觉和语言内容的联合信息学习上下文感知的输入标记表示。最后一项任务则尝试预测图像和文本是否相互描述。在大规模图像-标题对上进行预训练后,我们将Unicoder-VL迁移到基于标题的图像-文本检索和视觉常识推理任务中,仅需增加一个额外的输出层。我们在这两个任务上均取得了最先进的或可比的结果,并展示了跨模态预训练的强大能力。