2 个月前

提问、关注与回答:探索问题引导的空间注意力机制在视觉问答中的应用

Huijuan Xu; Kate Saenko
提问、关注与回答:探索问题引导的空间注意力机制在视觉问答中的应用
摘要

我们研究了视觉问答(Visual Question Answering, VQA)问题,该问题需要结合图像和语言理解来回答关于给定照片的问题。近期的方法已经将基于卷积-循环网络的深度图像描述方法应用于这一问题,但未能建模空间推理。为了解决这一不足,我们提出了一种称为空间记忆网络(Spatial Memory Network)的模型,并将其应用于VQA任务中。记忆网络是一种具有显式注意力机制的循环神经网络,该机制可以选择存储在内存中的特定部分信息。我们的空间记忆网络将来自图像不同空间区域的神经元激活存储在其内存中,并利用问题来选择相关区域以计算答案,这一过程构成了网络中的单次“跳跃”。我们提出了一种新颖的空间注意力架构,在第一次跳跃中将单词与图像块对齐,并通过添加第二次注意力跳跃来改进结果,这次跳跃考虑整个问题,根据第一次跳跃的结果选择视觉证据。为了更好地理解网络所学习的推理过程,我们设计了需要特定空间推理的合成问题,并可视化了注意力权重。我们在两个已发布的视觉问答数据集DAQUAR [1]和VQA [2]上评估了我们的模型,并与一个强大的深度基线模型(iBOWIMG)进行了比较,后者通过连接图像和问题特征来预测答案 [3]。我们的模型在这两个数据集上均取得了优于基线模型的结果。

提问、关注与回答:探索问题引导的空间注意力机制在视觉问答中的应用 | 最新论文 | HyperAI超神经