16 天前
基于掩码特征预测的自监督视觉预训练
Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer

摘要
我们提出了一种用于视频模型自监督预训练的掩码特征预测方法(Masked Feature Prediction, MaskFeat)。该方法首先随机掩码输入序列中的一部分,随后预测被掩码区域的特征。我们系统研究了五种不同类型的特征,发现手工设计的梯度方向直方图(Histograms of Oriented Gradients, HOG)在性能与效率方面均表现尤为出色。我们观察到,HOG中局部对比度归一化(local contrast normalization)对于取得良好结果至关重要,这一发现与早期将HOG应用于视觉识别的研究结果一致。所提出的MaskFeat方法能够有效学习丰富的视觉知识,并驱动大规模基于Transformer的模型。在未使用额外模型参数或监督信号的前提下,仅在无标签视频上进行预训练,MaskFeat在Kinetics-400上取得了86.7%的准确率(MViT-L),在Kinetics-600上达到88.3%,在Kinetics-700上达到80.4%,在AVA数据集上获得39.8 mAP,以及在SSv2数据集上达到75.0%的准确率,均创下新纪录。此外,MaskFeat还可推广至图像输入,可将其视为单帧视频,从而在ImageNet数据集上取得了具有竞争力的性能表现。