
摘要
我们提出了一种对掩码自编码器(Masked Autoencoders, MAE)的扩展方法,通过显式鼓励模型学习更高层次的场景级特征,从而提升其表征能力。该方法主要通过以下两个方面实现:(i)引入生成图像与真实图像之间的感知相似性损失项;(ii)借鉴对抗训练领域的多种技术,包括多尺度训练策略以及自适应判别器增强机制。上述方法的结合不仅显著提升了像素级别的重建质量,还使得模型所学习到的特征能够更好地捕捉图像中的高层语义信息。更为重要的是,我们证明了所提出的Perceptual MAE方法在下游任务中表现出更优的性能,超越了以往的各类方法。在ImageNet-1K数据集上,采用线性探测(linear probing)方式达到78.1%的Top-1准确率,微调(fine-tuning)时最高可达88.1%;在其他下游任务中也取得了相近的优异结果。所有这些成果均在无需依赖额外预训练模型或数据的前提下实现。