17 天前

DualVGR:一种用于视频问答的双视觉图推理单元

Jianyu Wang, Bing-Kun Bao, Changsheng Xu
DualVGR:一种用于视频问答的双视觉图推理单元
摘要

视频问答(Video Question Answering, VideoQA)是一项具有挑战性的任务,要求智能体能够理解丰富的视频内容,并进行时空推理。然而,现有的基于图的方法在执行多步推理时表现不佳,忽视了视频问答任务的两个关键特性:(1)对于同一视频,不同问题可能需要不同数量的视频片段或物体,通过关系推理来得出答案;(2)在推理过程中,外观特征与运动特征之间存在复杂的相互依赖关系,二者相互关联且具有互补性。基于上述观察,本文提出了一种双视觉图推理单元(Dual-Visual Graph Reasoning Unit, DualVGR),实现对视频内容的端到端推理。DualVGR的首个贡献是设计了一种可解释的查询惩罚模块(Query Punishment Module),该模块通过多轮推理循环,有效过滤掉无关的视觉特征。第二个贡献是提出了一种基于视频的多视角图注意力网络(Video-based Multi-view Graph Attention Network),能够捕捉外观特征与运动特征之间的关联关系。所提出的DualVGR网络在基准数据集MSVD-QA和SVQA上取得了当前最优性能,并在MSRVTT-QA基准上也展现出具有竞争力的结果。相关代码已开源,地址为:https://github.com/MMIR/DualVGR-VideoQA。