2 个月前
VideoMAE V2:通过双重掩码扩展视频掩码自编码器
Wang, Limin ; Huang, Bingkun ; Zhao, Zhiyu ; Tong, Zhan ; He, Yinan ; Wang, Yi ; Wang, Yali ; Qiao, Yu

摘要
规模是构建强大基础模型的主要因素,这些模型可以很好地泛化到各种下游任务中。然而,训练具有数十亿参数的视频基础模型仍然具有挑战性。本文表明,视频掩码自编码器(VideoMAE)是一种可扩展且通用的自监督预训练方法,适用于构建视频基础模型。我们通过核心设计在模型和数据两个方面对VideoMAE进行了扩展。具体而言,我们提出了一种双掩码策略以实现高效的预训练,其中编码器在视频令牌的一个子集上运行,而解码器则处理另一个子集的视频令牌。尽管由于编码器中的高掩码率使得VideoMAE非常高效,但掩码解码器仍能进一步降低整体计算成本。这使得能够在视频领域高效地预训练数十亿级别的模型成为可能。此外,我们采用了逐步训练范式,首先在一个多样化的多源未标记数据集上进行初始预训练,随后在一个混合标记数据集上进行再预训练。最终,我们成功地训练了一个具有十亿参数的视频ViT模型,在Kinetics(K400上的准确率为90.0%,K600上的准确率为89.9%)和Something-Something(V1上的准确率为68.7%,V2上的准确率为77.0%)数据集上达到了新的最先进性能。此外,我们在多种下游任务中广泛验证了预训练的视频ViT模型,证明了其作为通用视频表示学习器的有效性。代码和模型可在以下网址获取:\url{https://github.com/OpenGVLab/VideoMAEv2}。