8 个月前

摘要

基于视频的推理任务（如视频问答，Video Question Answering, QA）中的时空场景图方法，通常为每一视频帧独立构建场景图。然而，这类方法往往忽视了视频本质上是三维空间中事件发生的二维“视角”序列这一事实，因而未能充分利用三维场景语义在帧间连续传递的特性。基于这一洞察，我们提出一种（2.5+1）D场景图表示方法，以更有效地捕捉视频内部的时空信息流动。具体而言，我们首先通过一个现成的2D到3D转换模块，将每一帧2D图像映射为具有推断出的3D结构的伪三维（2.5D）场景图；随后，将视频帧注册到一个共享的（2.5+1）D时空空间中，并在该空间内对每个2D场景图进行定位与对齐。由此构建的（2.5+1）D场景图被进一步划分为静态子图与动态子图，分别对应于场景中物体在现实世界中是否通常发生移动。动态子图中的节点被赋予运动特征，以表征其与其他节点之间的动态交互关系。针对视频问答任务，我们设计了一种基于Transformer的新型推理框架，将（2.5+1）D场景图嵌入到一个分层的时空潜在空间中，从而在不同粒度下捕捉子图及其相互作用的结构化信息。为验证所提方法的有效性，我们在NExT-QA和AVSD-QA两个数据集上进行了实验。结果表明，所提出的（2.5+1）D表示方法不仅显著提升了训练与推理效率，其分层建模结构在视频问答任务上也优于当前最先进的方法，展现出更优的性能表现。

源 PDF