18 天前

AdaMAE:面向时空高效学习的自适应掩码掩码自编码器

Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel
AdaMAE:面向时空高效学习的自适应掩码掩码自编码器
摘要

掩码自编码器(Masked Autoencoders, MAEs)通过从可见数据的标记(tokens)中重建被掩码的输入数据,学习图像、文本、音频、视频等多种模态的可泛化表征。当前针对视频的MAE方法通常采用随机的块(patch)、管状(tube)或帧(frame)级掩码策略来选择这些标记。本文提出AdaMAE,一种面向MAEs的可端到端训练的自适应掩码策略。该策略通过一个辅助采样网络,基于语义上下文自适应地选择可见标记。该网络对时空块(spatiotemporal-patch)标记估计一个类别分布,并依据强化学习中的策略梯度算法,对那些会增加预期重建误差的标记进行奖励,从而将其选为可见标记。实验表明,AdaMAE能够从时空信息丰富的区域采样更多标记,从而实现高达95%的标记掩码率,显著降低内存占用并加速预训练过程。我们在Something-Something v2(SSv2)数据集上进行了消融实验,验证了该自适应采样策略的有效性,并在采用ViT-Base骨干网络、经过800个预训练周期的情况下,在SSv2和Kinetics-400动作分类数据集上分别取得了70.0%和81.7%的Top-1准确率,达到当前最优水平。