
摘要
视频-文本变换器是否学会了在帧之间建模时间关系?尽管这些模型具有巨大的容量和丰富的多模态训练数据,但最近的研究揭示了视频-文本模型倾向于基于帧的空间表示,而时间推理仍然 largely 未解决。在这项工作中,我们确定了视频-文本变换器时间学习中的几个关键挑战:由于网络规模有限导致的空间-时间权衡;多帧建模的维度诅咒;以及通过延长片段长度获得的语义信息的边际效益递减。基于这些发现,我们提出了 SViTT(Sparse Video-text Transformer),这是一种稀疏的视频-文本架构,其多帧推理的成本显著低于使用密集注意力机制的朴素变换器。类似于图神经网络,SViTT 采用了两种形式的稀疏性:边稀疏性限制了自注意力中令牌之间的查询-键通信;节点稀疏性则丢弃了无信息的视觉令牌。通过一个随着片段长度增加而逐渐提高模型稀疏性的课程训练方法,SViTT 在多个视频-文本检索和问答基准测试中超越了密集变换器基线模型,且计算成本大大降低。项目页面:http://svcl.ucsd.edu/projects/svitt。