
摘要
通常情况下,深度网络模型在训练阶段以及对未见数据进行推理时均表现为纯粹的归纳(inductive)模式。因此,当此类模型用于预测任务时,众所周知,它们往往难以捕捉到在群体层面上物体(或概念)之间存在的语义信息及隐含依赖关系。此外,在大规模且存在噪声的场景下,如何以一种兼容反向传播(backpropagation)的方式有效引入领域知识或先验知识,目前仍不明确。在本工作中,我们提出了一种端到端的视觉与语言模型,该模型显式融合了知识图谱信息。同时,我们引入了一种基于隐式网络算子的交互式分布外(out-of-distribution, OOD)层,用于过滤由外部知识库引入的噪声。在实际应用中,我们将该模型应用于多个视觉与语言下游任务,包括视觉问答(Visual Question Answering)、视觉推理(Visual Reasoning)以及在不同数据集上的图像-文本检索任务。实验结果表明,所提出的模型能够在显著减少样本数量和训练时间的前提下,达到与当前最先进方法相当的性能表现。