HyperAIHyperAI

Command Palette

Search for a command to run...

掩码自编码器是可扩展的视觉学习器

Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross Girshick

摘要

本文表明,掩码自编码器(Masked Autoencoders, MAE)是适用于计算机视觉的可扩展自监督学习方法。我们的MAE方法设计简洁:对输入图像的随机图像块进行掩码,并重建缺失的像素。该方法基于两个核心设计。首先,我们提出一种非对称的编码器-解码器架构,其中编码器仅处理可见的图像块子集(不包含掩码标记),而解码器则轻量化设计,能够从潜在表示和掩码标记中重建原始图像。其次,我们发现对输入图像进行高比例的掩码(例如75%)能够形成一个具有实际意义且有效的自监督学习任务。将这两个设计相结合,使得我们能够高效且有效地训练大规模模型:训练速度提升3倍或更多,同时显著提高模型精度。该可扩展的方法支持训练高容量模型,且具有优异的泛化能力:例如,一个标准的ViT-Huge模型在仅使用ImageNet-1K数据的方法中达到了最佳准确率(87.8%)。在下游任务中的迁移性能超越了监督预训练方法,并展现出极具前景的可扩展性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供