12 天前

用于Memex问答的聚焦视觉-文本注意力

{Li-Jia Li, Yannis Kalantidis, Junwei Liang, and Alexander Hauptmann, Lu Jiang, Liangliang Cao}
摘要

近年来,神经网络在语言与视觉融合方面的最新进展已成功应用于简单的单图像视觉问答任务。然而,要解决真实场景中多媒体数据集(如个人相册)上的问答问题,必须对包含多张照片的完整序列进行分析。本文提出了一项新的多模态MemexQA任务:给定用户的一组照片序列,目标是自动回答有助于用户回忆照片所记录事件的问题。除了提供文本答案外,系统还会返回若干用于支撑答案的“定位照片”(grounding photos),以帮助用户快速验证答案的准确性。定位照片的提供至关重要,因其能够显著提升用户对答案可信度的确认效率。为应对该任务,本文做出两项关键贡献:1)构建了首个公开可用的多模态问答数据集——MemexQA,其数据来源于真实的个人相册;2)提出一种端到端可训练的神经网络架构,该架构采用分层处理机制,能够动态判断在问答过程中应关注哪些媒体内容及时间片段,从而有效利用序列化数据中的信息。在MemexQA数据集上的实验结果表明,所提出的模型显著优于多个强基线方法,并在生成与问题高度相关且具有合理解释力的定位照片方面表现最佳,充分验证了其在复杂真实场景下进行记忆恢复型问答任务的有效性。

用于Memex问答的聚焦视觉-文本注意力 | 最新论文 | HyperAI超神经