2 个月前

用于视觉问答的焦点视觉-文本注意力机制

Junwei Liang; Lu Jiang; Liangliang Cao; Li-Jia Li; Alexander Hauptmann
用于视觉问答的焦点视觉-文本注意力机制
摘要

近期关于语言和视觉的神经网络研究已成功应用于简单的单图像视觉问答。然而,要解决个人照片等多媒体集合中的实际问答问题,我们需要考虑包含一系列照片或视频的整个集合。在回答来自大型集合的问题时,一个自然的问题是如何识别支持答案的片段。本文介绍了一种名为焦点视觉-文本注意力网络(FVTA)的新神经网络,用于在视觉问答中进行集体推理,其中既包括图像也包括文本元数据等视觉和文本序列信息。FVTA引入了一种端到端的方法,通过分层过程动态确定在顺序数据中关注哪些媒体和时间点以回答问题。FVTA不仅能够很好地回答问题,还能提供系统得出答案所依据的理由。FVTA在MemexQA数据集上取得了最先进的性能,并在MovieQA数据集上获得了具有竞争力的结果。

用于视觉问答的焦点视觉-文本注意力机制 | 最新论文 | HyperAI超神经