
摘要
我们介绍了时空视频问答(Spatio-Temporal Video Question Answering)这一任务,该任务要求智能系统同时检索相关时刻并检测问题中提到的视觉概念(人物和物体),以回答关于视频的自然语言问题。首先,我们在TVQA数据集的基础上增加了310,800个边界框,将视频中的对象与问题和答案中的视觉概念关联起来。我们将这个增强版本命名为TVQA+。接着,我们提出了基于空间证据和时间证据的时空回答模型(Spatio-Temporal Answerer with Grounded Evidence, STAGE),这是一个统一的框架,能够在空间域和时间域中定位证据以回答视频相关的问题。全面的实验和分析证明了我们框架的有效性,并展示了TVQA+数据集中丰富的注释如何有助于问答任务。此外,通过执行这一联合任务,我们的模型能够生成具有洞察力且可解释的时空注意力可视化结果。数据集和代码已公开发布在:http://tvqa.cs.unc.edu 和 https://github.com/jayleicn/TVQAplus。