
摘要
视频问答(Video QA)是理解视频时间结构的重要任务。我们观察到,与图像问答相比,视频问答具有三个独特的属性:(1)它处理包含更丰富信息的长图像序列,这些信息不仅在数量上更多,而且在多样性上也更为丰富;(2)运动和外观信息通常相互关联,并能为对方提供有用的注意力线索;(3)不同的问题需要不同数量的帧来推断答案。基于这些观察,我们提出了一种用于视频问答的运动-外观协同记忆网络(Motion-Appearance Co-Memory Network)。该网络借鉴了动态记忆网络(Dynamic Memory Network, DMN)的概念,并引入了新的机制以应对视频问答的需求。具体而言,该网络有三个显著方面:(1)一种协同记忆注意力机制,利用运动和外观信息生成注意力;(2)一个时间卷积-反卷积网络,用于生成多级上下文事实;(3)一种动态事实集成方法,根据不同问题动态构建时间表示。我们在TGIF-QA数据集上评估了我们的方法,结果表明,在TGIF-QA的四个任务中,我们的方法显著优于当前最先进的技术。