
摘要
掩码自编码器已成为自监督视觉表征学习中广受欢迎的训练范式。这类模型通过随机掩码输入的一部分,并根据目标表征重建被掩码区域来实现学习。本文首次表明,学习良好表征并不需要对目标表征进行精心设计,因为不同的目标表征往往能够诱导出行为相似的模型。基于这一观察,我们提出了一种多阶段掩码蒸馏(masked distillation)流程,并采用随机初始化的模型作为教师网络,从而无需刻意设计目标表征,即可高效训练高容量模型。有趣的是,我们进一步探索了使用更大容量教师模型的可能性,获得了具有显著迁移能力的学生模型。在图像分类、迁移学习、目标检测和语义分割等多种任务上,所提出的基于自举教师的掩码知识蒸馏方法(dBOT)均以显著优势超越了以往的自监督方法。我们希望本研究的发现以及所提出的方法,能够促使研究者重新思考预训练掩码自编码器中目标表征的作用。代码与预训练模型已公开发布于:https://github.com/liuxingbin/dbot。