17 天前

SimVTP：基于掩码自编码器的简单视频文本预训练

Yue Ma, Tianyu Yang, Yin Shan, Xiu Li

摘要

本文提出了一种基于掩码自编码器的简单视频-文本预训练框架——SimVTP。该方法随机掩码输入视频的空间-时间体（spatial-temporal tubes）以及输入文本的词元（word tokens），并将掩码后的视频与文本输入统一的自编码器中，以重建缺失的像素和词元。SimVTP具有以下几项特性：1）得益于统一的自编码器结构，SimVTP在重建某一模态的掩码信号时，可借助另一模态的上下文信息，从而隐式地学习视频体（video tubes）与文本词元之间的跨模态对齐关系。2）由于视频具有显著的时间冗余性，SimVTP在高视频掩码率（例如90%）下仍能保持良好性能；同时，为达到最优效果，还需采用较高的文本掩码率（例如75%），远高于BERT的典型掩码率（如15%）。这是因为视频模态的辅助降低了文本重建的难度，因此需要更高的掩码比例以提升预训练任务的挑战性，从而促进更具价值的特征学习。3）在SimVTP基础上引入常用的跨模态训练策略——视频-文本对比学习（Video-Text Contrastive Learning, VTC）和视频-文本匹配（Video-Text Matching, VTM），可显著提升模型的可迁移性能。4）SimVTP具有优异的数据效率：仅在WebVid-2M数据集的10%数据上进行预训练，SimVTP在MSRVTT基准上即取得了43.8 R@1的优异结果，远超当前基于CC3M与WebVid-2M联合预训练的先进方法。我们将预训练模型迁移至多种下游任务，并取得了卓越的性能表现。相关代码与模型将开源发布于：https://github.com/mayuelala/SimVTP。