Command Palette
Search for a command to run...
掩码自编码器是可扩展的视觉学习器
掩码自编码器是可扩展的视觉学习器
Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick
摘要
本文表明,掩码自编码器(Masked Autoencoders, MAE)是适用于计算机视觉的可扩展自监督学习方法。我们的MAE方法设计简洁:对输入图像的随机图像块进行掩码,并重建缺失的像素。该方法基于两个核心设计。首先,我们提出一种非对称的编码器-解码器架构,其中编码器仅处理可见的图像块子集(不包含掩码标记),而解码器则轻量化设计,能够从潜在表示和掩码标记中重建原始图像。其次,我们发现对输入图像进行高比例的掩码(例如75%)能够形成一个具有实际意义且有效的自监督学习任务。将这两个设计相结合,使得我们能够高效且有效地训练大规模模型:训练速度提升3倍或更多,同时显著提高模型精度。该可扩展的方法支持训练高容量模型,且具有优异的泛化能力:例如,一个标准的ViT-Huge模型在仅使用ImageNet-1K数据的方法中达到了最佳准确率(87.8%)。在下游任务中的迁移性能超越了监督预训练方法,并展现出极具前景的可扩展性。