
摘要
本文提出了一种用于视频问答(Video Question Answering, VideoQA)任务的视频图Transformer(Video Graph Transformer, VGT)模型。VGT的创新之处主要体现在两个方面:其一,设计了一种动态图Transformer模块,能够显式地建模视频中的视觉对象、对象间关系及其动态变化,从而支持复杂的时空推理;其二,采用解耦的视频与文本Transformer架构,通过独立编码视频与文本表示,并在后续进行语义相关性比较来完成问答任务,而非使用传统的跨模态纠缠Transformer进行答案分类。视觉与文本之间的交互则通过额外的跨模态交互模块实现。得益于更合理的视频编码机制与更优的问答求解策略,我们在无需预训练(pretraining-free)的设定下,验证了VGT在需要动态关系推理的VideoQA任务上显著优于现有方法。其性能甚至超越了那些基于数百万外部数据进行预训练的模型。此外,我们进一步表明,VGT在仅使用远少于现有方法数量级的自监督跨模态预训练数据时,仍能获得显著性能提升,充分展现了其在数据高效预训练方面的巨大潜力。上述结果清晰地证明了VGT的有效性与优越性,揭示了其在推动视频问答研究从粗粒度的视觉识别/描述迈向真实视频中细粒度关系推理方向的重要价值。通过全面的分析与若干启发式观察,我们期望VGT能为该领域的发展提供新的思路。相关代码已开源,地址为:https://github.com/sail-sg/VGT。