2 个月前
未加掩码的教师:迈向训练高效的视频基础模型
Kunchang Li; Yali Wang; Yizhuo Li; Yi Wang; Yinan He; Limin Wang; Yu Qiao

摘要
视频基础模型(VFMs)由于高昂的计算成本和数据稀缺而受到有限的探索。以往的VFM依赖于图像基础模型(IFMs),但在向视频领域的迁移过程中面临诸多挑战。尽管VideoMAE已经从有限的数据中训练出一个稳健的视觉变换器(ViT),但其低层次重建导致了收敛困难,并且与高层次跨模态对齐存在冲突。本文提出了一种时间敏感型VFM的高效训练方法,该方法整合了现有方法的优点。为了提高数据效率,我们屏蔽了大部分低语义视频标记,但选择性地将未屏蔽的标记与IFM对齐,后者作为未屏蔽教师(UMT)。通过提供语义指导,我们的方法实现了更快的收敛速度和多模态友好性。借助渐进式预训练框架,我们的模型能够处理包括场景相关、时间相关以及复杂的视频-语言理解在内的多种任务。仅使用公开资源,在32个A100 GPU上进行6天的预训练,我们从零构建的ViT-L/16在各种视频任务上达到了最先进的性能。代码和模型将在https://github.com/OpenGVLab/unmasked_teacher发布。