
摘要
本文提出了一种基于掩码自编码器的简单视频-文本预训练框架——SimVTP。该方法随机掩码输入视频的空间-时间体(spatial-temporal tubes)以及输入文本的词元(word tokens),并将掩码后的视频与文本输入统一的自编码器中,以重建缺失的像素和词元。SimVTP具有以下几项特性:1)得益于统一的自编码器结构,SimVTP在重建某一模态的掩码信号时,可借助另一模态的上下文信息,从而隐式地学习视频体(video tubes)与文本词元之间的跨模态对齐关系。2)由于视频具有显著的时间冗余性,SimVTP在高视频掩码率(例如90%)下仍能保持良好性能;同时,为达到最优效果,还需采用较高的文本掩码率(例如75%),远高于BERT的典型掩码率(如15%)。这是因为视频模态的辅助降低了文本重建的难度,因此需要更高的掩码比例以提升预训练任务的挑战性,从而促进更具价值的特征学习。3)在SimVTP基础上引入常用的跨模态训练策略——视频-文本对比学习(Video-Text Contrastive Learning, VTC)和视频-文本匹配(Video-Text Matching, VTM),可显著提升模型的可迁移性能。4)SimVTP具有优异的数据效率:仅在WebVid-2M数据集的10%数据上进行预训练,SimVTP在MSRVTT基准上即取得了43.8 R@1的优异结果,远超当前基于CC3M与WebVid-2M联合预训练的先进方法。我们将预训练模型迁移至多种下游任务,并取得了卓越的性能表现。相关代码与模型将开源发布于:https://github.com/mayuelala/SimVTP。