9 天前

基于视频图Transformer的对比视频问答

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua
基于视频图Transformer的对比视频问答
摘要

我们提出一种基于对比学习范式的视频问答(VideoQA)方法,采用视频图Transformer模型(CoVGT)。CoVGT在结构与性能上具有三大独特优势:1)提出一种动态图Transformer模块,通过显式建模视频中的视觉对象、对象间关系及其动态变化,实现对复杂时空推理任务的有效编码;2)设计独立的视频与文本Transformer,用于视频与文本之间的对比学习以完成问答任务,而非依赖多模态Transformer进行答案分类。通过额外引入跨模态交互模块,实现细粒度的视频-文本信息交流;3)采用联合的全监督与自监督对比目标进行优化,分别针对正确与错误答案、相关与无关问题进行对比学习,从而提升模型的判别能力。 得益于卓越的视频表征能力与问答建模机制,CoVGT在视频推理任务上显著优于现有方法,其性能甚至超越那些基于数百万外部数据预训练的模型。此外,我们进一步验证了CoVGT可从跨模态预训练中获益,且仅需远少于现有方法的数据量(量级降低数个数量级)。实验结果充分证明了CoVGT的有效性与先进性,同时揭示了其在更高效预训练策略方面的巨大潜力。我们期望本工作的成功能够推动视频问答研究从粗粒度的视频识别/描述,迈向对视频内容中细粒度关系推理的新阶段。相关代码已开源,地址为:https://github.com/doc-doc/CoVGT。