
摘要
我们介绍了ViLBERT(Vision-and-Language BERT的简称),这是一种用于学习图像内容和自然语言任务无关的联合表示的模型。我们将流行的BERT架构扩展为多模态双流模型,分别处理视觉和文本输入,并通过共注意变压器层进行交互。我们在大规模自动收集的概念字幕数据集上通过两个代理任务对模型进行了预训练,然后仅在基础架构上进行少量修改,将其迁移到多个已建立的视觉与语言任务中——包括视觉问答、视觉常识推理、指代表达和基于字幕的图像检索。我们观察到,与现有的任务特定模型相比,在这些任务上取得了显著的改进——在所有四个任务中均达到了最先进的水平。我们的工作代表了从仅作为任务训练的一部分来学习视觉与语言之间的对应关系,向将视觉对应关系视为可预训练和可迁移的能力这一转变。