2 个月前

TGIF-QA:迈向视觉问答中的时空推理

Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim
TGIF-QA:迈向视觉问答中的时空推理
摘要

视觉与语言理解已成为人工智能领域中一个备受关注的研究课题。在这一研究方向的众多任务中,视觉问答(VQA)是最成功的之一,其目标是学习一种模型,该模型能够在区域级别上理解视觉内容,并将其与自然语言形式的问题和答案对建立联系。尽管过去几年取得了快速进展,但现有的大多数VQA研究主要集中在图像上。本文我们将重点扩展VQA至视频领域,并在三个方面为相关文献做出重要贡献。首先,我们提出了三个专门为视频VQA设计的新任务,这些任务要求从视频中进行时空推理以正确回答问题。其次,我们引入了一个新的大规模数据集TGIF-QA,该数据集扩展了现有VQA工作并包含了我们的新任务。最后,我们提出了一种基于双LSTM的方法,该方法结合了空间注意力和时间注意力机制,并通过实证评估展示了其相对于传统VQA技术的有效性。