Command Palette
Search for a command to run...
(2.5+1)D 空间-时间场景图用于视频问答
(2.5+1)D 空间-时间场景图用于视频问答
Anoop Cherian Chiori Hori Tim K. Marks Jonathan Le Roux
摘要
基于视频的推理任务(如视频问答,Video Question Answering, QA)中的时空场景图方法,通常为每一视频帧独立构建场景图。然而,这类方法往往忽视了视频本质上是三维空间中事件发生的二维“视角”序列这一事实,因而未能充分利用三维场景语义在帧间连续传递的特性。基于这一洞察,我们提出一种(2.5+1)D场景图表示方法,以更有效地捕捉视频内部的时空信息流动。具体而言,我们首先通过一个现成的2D到3D转换模块,将每一帧2D图像映射为具有推断出的3D结构的伪三维(2.5D)场景图;随后,将视频帧注册到一个共享的(2.5+1)D时空空间中,并在该空间内对每个2D场景图进行定位与对齐。由此构建的(2.5+1)D场景图被进一步划分为静态子图与动态子图,分别对应于场景中物体在现实世界中是否通常发生移动。动态子图中的节点被赋予运动特征,以表征其与其他节点之间的动态交互关系。针对视频问答任务,我们设计了一种基于Transformer的新型推理框架,将(2.5+1)D场景图嵌入到一个分层的时空潜在空间中,从而在不同粒度下捕捉子图及其相互作用的结构化信息。为验证所提方法的有效性,我们在NExT-QA和AVSD-QA两个数据集上进行了实验。结果表明,所提出的(2.5+1)D表示方法不仅显著提升了训练与推理效率,其分层建模结构在视频问答任务上也优于当前最先进的方法,展现出更优的性能表现。