17 天前

KRISP:面向开放域基于知识的视觉问答的隐式与符号知识融合

Kenneth Marino, Xinlei Chen, Devi Parikh, Abhinav Gupta, Marcus Rohrbach
KRISP:面向开放域基于知识的视觉问答的隐式与符号知识融合
摘要

在视觉问答(VQA)任务中,最具挑战性的题型之一是:回答问题所需的知识无法从图像本身获取,必须依赖图像之外的外部知识。在本研究中,我们探讨了开放域知识(open-domain knowledge)场景,即在训练和测试阶段均未提供或标注所需知识的情况。为此,我们引入了两种类型的知识表示与推理机制:其一是隐式知识,可通过基于Transformer的模型,从无监督的语言预训练数据和有监督的训练数据中有效学习;其二是显式符号化知识,以知识库(knowledge base)的形式进行编码。我们的方法融合了这两种机制——利用Transformer模型强大的隐式推理能力进行答案预测,同时整合来自知识图谱的符号化表示,且始终保留其明确的语义信息,避免符号意义在隐式嵌入中丢失。通过融合多种知识来源,我们覆盖了解决基于知识的VQA问题所需广泛而多样的知识类型。实验结果表明,我们提出的方法——KRISP(Knowledge Reasoning with Implicit and Symbolic rePresentations)在OK-VQA数据集上显著超越了当前最先进的方法。该数据集是目前开放域知识型VQA任务中规模最大的公开数据集。通过大量消融实验,我们进一步验证:尽管模型能够有效利用隐式知识推理,但显式连接知识图谱与答案词汇表的符号化答案模块对于方法性能至关重要,并能有效泛化至罕见答案。