
摘要
在当代视频理解模型中,建模与理解时间仍然是一个重大挑战。随着语言在推动模型强大泛化能力方面日益凸显其关键作用,基础视频-语言模型具备时间感知能力变得尤为迫切。本文聚焦于时间理解的一个具体方面:由“之前/之后”关系所体现的时间顺序一致性。我们发现,现有的七种视频-语言模型在理解这种基础的时间关系时均表现不佳。在此基础上,我们进一步探讨了一个核心问题:是否可以在不从头重新训练的前提下,为这些基础模型赋予时间感知能力?为此,我们基于在少量视频-文本数据上进行后预训练(post-pretraining)的方法,提出了一种针对VideoCLIP模型的时间适应方案。我们在六个不同数据集上对所适应的模型进行了零样本评估,涵盖三种对时间感知程度要求各异的下游任务。实验结果表明,当任务对时间感知的要求较高时,模型性能取得了显著且令人鼓舞的提升。本研究为探索并赋予现有视频-语言模型时间意识迈出了第一步,且无需依赖大规模数据与高计算成本的从头训练。