17 天前
KVL-BERT:面向视觉常识推理的知识增强型视觉-语言BERT
Dandan Song, Siyi Ma, Zhanchen Sun, Sicheng Yang, Lejian Liao

摘要
推理能力是实现完整视觉理解的关键。为使机器具备认知层级的视觉理解与推理能力,视觉常识推理(Visual Commonsense Reasoning, VCR)任务应运而生。在VCR任务中,给定一张图像及一个具有挑战性的问题,机器不仅需要给出正确答案,还需提供一个合理的解释来支撑其答案。当前,采用强大的BERT模型作为主干网络,以学习图像内容与自然语言之间联合表示的方法,在VCR任务上已展现出显著的性能提升。然而,现有方法均未有效利用常识知识,而我们认为,常识知识在该任务中将发挥重要作用。借助常识知识,即使问题所依赖的信息并未在图像中直接呈现,机器也能通过认知推理进行准确回答。为此,本文将常识知识引入跨模态BERT框架,提出一种新型的知识增强型视觉-语言BERT模型(Knowledge Enhanced Visual-and-Linguistic BERT,简称KVL-BERT)。该模型在输入视觉与语言内容的基础上,进一步融合来自ConceptNet的外部常识知识,并将其嵌入多层Transformer结构中。为保留原始句子的结构信息与语义表征,本文提出采用相对位置编码(relative position embedding)与掩码自注意力机制(mask-self-attention),以减弱注入的常识知识与输入序列中其他无关成分之间的干扰。实验结果表明,相较于其他特定任务模型及通用任务无关预训练模型,所提出的KVL-BERT在性能上实现了显著超越。