2 个月前

R-VQA：利用语义注意力学习视觉关系事实以实现视觉问答

Pan Lu; Lei Ji; Wei Zhang; Nan Duan; Ming Zhou; Jianyong Wang

摘要

近期，视觉问答（Visual Question Answering, VQA）作为多模态学习中的一项重要任务崭露头角，因为它需要同时理解视觉和文本模态。现有的方法主要依赖于提取图像和问题的特征，通过多模态融合或注意力机制来学习它们的联合特征嵌入。一些最近的研究利用外部独立于VQA的模型来检测图像中的候选实体或属性，这些实体或属性作为补充的语义知识对VQA任务有所帮助。然而，这些候选实体或属性可能与VQA任务无关，并且其语义容量有限。为了更好地利用图像中的语义知识，我们提出了一种新的框架来学习用于VQA的视觉关系事实。具体而言，我们在Visual Genome数据集的基础上通过一个语义相似度模块构建了一个关系-视觉问答（Relation-VQA, R-VQA）数据集，其中每个数据条目包括一张图像、一个对应的问题、一个正确答案以及一个支持的关系事实。随后，我们采用了一个定义明确的关系检测器来预测与视觉问题相关的关系事实。此外，我们还提出了一种由视觉注意力和语义注意力依次组成的多步注意力模型，以提取相关的视觉知识和语义知识。我们在两个基准数据集上进行了全面的实验，结果表明我们的模型达到了最先进的性能，并验证了考虑视觉关系事实的好处。