
摘要
大规模视频-语言预训练在推进视频-语言理解任务方面取得了显著进展。然而,视频编码的沉重计算负担仍然是一个严峻的效率瓶颈,尤其是在处理长视频时。这些长视频由于其固有的三维特性和时空冗余,包含大量的视觉标记,使得捕捉复杂的时空关系变得非常困难。为了解决这一问题,我们提出了一种高效的方法,称为时间-空间标记聚合(TEmporal-Spatial Token Aggregation, TESTA)。TESTA通过自适应地聚合相似帧以及每帧内的相似补丁来压缩视频语义。TESTA可以减少75%的视觉标记数量,从而加速视频编码。基于TESTA,我们引入了一个预训练的视频-语言模型,在每个视频编码器块中配备了分时段空标记聚合模块。我们在五个数据集上对段落到视频检索和长形式VideoQA任务进行了评估。实验结果表明,TESTA将计算效率提高了1.7倍,并且通过扩展处理更长输入帧的能力实现了显著的性能提升,例如在QuerYD数据集上R@1指标提升了13.7%,在Condensed Movie数据集上R@1指标提升了6.5%。