
摘要
视频理解依赖于对全局内容的感知以及对内部关联(如因果关系、运动规律和时空对应关系)的建模。为了学习这些交互关系,我们采用一种“掩码-预测”(mask-then-predict)的预训练任务,对通过VQ-VAE生成的离散化视频标记(video tokens)进行训练。与文本不同,文本中的词元(tokens)相对独立,而相邻的视频标记通常具有较强的关联性(例如,连续的视频帧在视觉上往往非常相似),因此若对单个视频标记进行均匀掩码,将导致任务过于简单,难以学习到有意义的表示。为解决这一问题,我们提出一种块状掩码(block-wise masking)策略,该策略在空间和时间两个维度上对相邻的视频标记进行掩码。此外,我们引入一种无需数据增强的对比学习方法,通过预测视频片段是否来自同一视频,进一步捕捉视频的全局语义信息。我们在未经筛选的视频数据上对模型进行预训练,并验证了所训练模型在多个视频理解数据集(如SSV2、Diving48)上达到了当前最优性能。最后,我们对模型的可扩展性及预训练方法的设计进行了深入分析。代码已开源,地址为:https://github.com/airsplay/vimpac。