
摘要
我们提出ViC-MAE,一种融合掩码自编码器(Masked AutoEncoders, MAE)与对比学习(contrastive learning)的模型。ViC-MAE通过在MAE重建损失下学习局部表征,并对这些局部表征进行全局池化以获得全局特征表示,随后在图像与视频帧之间利用该表示进行对比学习目标的优化。实验表明,ViC-MAE所学习到的视觉表征在图像与视频分类任务中均展现出优异的泛化能力。具体而言,在使用相同数据训练的情况下,ViC-MAE在从视频到图像的迁移学习任务中,于ImageNet-1k数据集上取得了86%的Top-1准确率,相较于近期提出的OmniMAE提升了1.3个百分点(绝对提升);当在额外数据上进行训练时,准确率进一步提升至87.1%,绝对提升达2.4个百分点。与此同时,ViC-MAE在具有挑战性的Something-Something-v2视频基准测试中,取得了75.9%的Top-1准确率,显著优于大多数现有方法。当在来自多样化数据集的视频与图像数据上联合训练时,我们的方法在视频与图像分类基准之间保持了均衡的迁移学习性能,仅以微弱差距位居最优监督方法之后,表现出卓越的跨模态适应能力。