2 个月前

FVQA:基于事实的视觉问答

Peng Wang; Qi Wu; Chunhua Shen; Anton van den Hengel; Anthony Dick
FVQA:基于事实的视觉问答
摘要

视觉问答(VQA)在计算机视觉和自然语言处理领域受到了广泛关注,这不仅因为它提供了对两种重要信息源之间关系的洞察,还因为其潜在的应用价值。目前的数据集及基于这些数据集构建的模型主要集中在仅通过直接分析问题和图像本身即可回答的问题上。这类无需外部信息即可回答的问题虽然有趣,但范围非常有限。例如,它排除了需要常识或基本事实知识才能回答的问题。本文我们引入了一种新的VQA数据集——FVQA,该数据集要求并支持更深层次的推理。FVQA中只包含需要外部信息才能回答的问题。为此,我们在传统的视觉问答数据集基础上进行了扩展,传统数据集包含图像-问题-答案三元组,而扩展后的数据集则增加了图像-问题-答案-支持事实四元组。支持事实以结构化三元组的形式表示,例如<猫, 能够, 爬树>(<Cat, CapableOf, ClimbingTrees>)。我们对FVQA数据集上的几种基线模型进行了评估,并描述了一种新型模型,该模型能够在基于支持事实的情况下对图像进行推理。