
摘要
视觉-语言模型(VLMs)在图像领域表现出色,尤其是在零样本设置下,这得益于大量可用的预训练数据(即配对的图像-文本样本)。然而,对于视频而言,这种配对的数据并不那么丰富。因此,视频-VLMs通常通过将预训练的图像-VLMs适应到视频领域来设计,而不是从头开始训练。所有这些方法都依赖于在视觉嵌入中添加时间信息(即图像 $\rightarrow$ 视频),通常保持文本嵌入不变甚至被丢弃。在本文中,我们提出相反的观点,认为通过更多地增强文本而非视觉信息可以设计出更好的视频-VLMs。具体来说,我们引入了视频条件下的文本表示(VicTR):一种针对视觉嵌入进行优化的文本嵌入形式,从而创建一个更加灵活的对比潜在空间。我们的模型还可以利用自由获取的语义信息,以视觉基础辅助文本的形式出现(例如物体或场景信息)。我们在少样本、零样本(HMDB-51、UCF-101)、短视频(Kinetics-400)和长视频(Charades)活动识别基准上评估了我们的模型,结果显示其在视频-VLMs中具有强大的性能。