2 个月前

面向目标的动态注意力模型在视觉问答中的应用

Ilija Ilievski; Shuicheng Yan; Jiashi Feng
面向目标的动态注意力模型在视觉问答中的应用
摘要

视觉问答(VQA)问题正逐渐引起多个研究领域的广泛关注。解决VQA问题需要结合计算机视觉技术来理解所展示图像或视频的视觉内容,以及自然语言处理技术来理解问题的语义并生成答案。在视觉内容建模方面,现有的大多数VQA方法采用从图像或视频中提取全局特征的策略,这不可避免地导致无法捕捉到诸如多个对象的空间配置等细粒度信息。从自动生成的区域中提取特征——正如一些基于区域的图像识别方法所做的那样——本质上并不能解决这一问题,反而可能引入大量与问题无关的特征。在这项工作中,我们提出了一种新颖的聚焦动态注意力(Focused Dynamic Attention, FDA)模型,以提供与所提问题更好地对齐的图像内容表示。FDA模型通过现成的目标检测器识别关键区域,并利用LSTM单元融合这些区域的信息和全局特征。随后,这种由问题驱动的内容表示与问题表示相结合,并输入推理单元以生成答案。在大规模基准数据集VQA上的广泛评估清楚地表明了FDA模型相较于已建立基线方法的优越性能。

面向目标的动态注意力模型在视觉问答中的应用 | 最新论文 | HyperAI超神经