17 天前

基于CLIP的图像到视频知识迁移中的时间建模再思考

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li
基于CLIP的图像到视频知识迁移中的时间建模再思考
摘要

基于大规模图像-文本数据对预训练的图像-文本模型(如CLIP)在跨模态知识学习方面展现出卓越的泛化能力,因而受到越来越多关注,其在视频领域提升视觉表征学习的潜力备受期待。本文在CLIP模型的基础上,重新审视了从图像到视频的知识迁移中的时序建模问题,这是将图像-文本预训练模型拓展至视频域的关键挑战。我们发现,现有的时序建模机制通常针对两类任务分别优化:一类是侧重高层语义的任务(如视频-文本检索),另一类是侧重低层视觉模式的任务(如视频识别),难以同时有效支持两类任务。其核心难点在于如何在充分利用CLIP模型中高层语义与低层视觉知识的前提下,建模有效的时序依赖关系。为解决这一问题,本文提出一种简洁而高效的时序建模机制——空间-时序辅助网络(Spatial-Temporal Auxiliary Network, STAN),该机制可将CLIP模型有效扩展至多样化的视频任务中。具体而言,为实现低层与高层知识的协同迁移,STAN采用分支结构,并引入解耦的空间-时序模块,使CLIP模型提取的多层次特征能够被充分地进行空间-时序上下文建模。我们在两个典型的视频任务上对所提方法进行了评估:视频-文本检索与视频识别。大量实验结果表明,与当前最先进的方法相比,本模型在多个公开数据集(包括MSR-VTT、DiDeMo、LSMDC、MSVD、Kinetics-400和Something-Something-V2)上均取得了显著的性能提升。代码将公开于:https://github.com/farewellthree/STAN