
摘要
掩码图像建模(MIM)作为预训练方法已被证明对众多视觉下游任务有效,但其工作原理和作用位置仍不清楚。在本文中,我们从两个角度——可视化和实验——将MIM与长期以来占主导地位的监督预训练模型进行比较,以揭示它们的关键表示差异。通过可视化分析,我们发现MIM为训练模型的所有层带来了局部归纳偏置,而监督模型则倾向于在较低层关注局部特征,在较高层关注全局特征。这可能是MIM有助于具有非常大感受野的视觉变换器优化的原因。使用MIM时,模型可以在所有层中保持较大的注意力头多样性。而对于监督模型,注意力头的多样性几乎在最后三层消失,较少的多样性会损害微调性能。通过实验我们发现,与监督模型相比,MIM模型在几何和运动任务(这些任务语义较弱或需要细粒度分类)上表现显著更好。无需任何额外技巧,标准的MIM预训练SwinV2-L模型在姿态估计(COCO测试开发集上的AP为78.9%,CrowdPose上的AP为78.0%)、深度估计(NYUv2上的RMSE为0.287,KITTI上的RMSE为1.966)以及视频目标跟踪(LaSOT上的SUC为70.7%)等任务上达到了最先进的性能。对于类别已由监督预训练充分覆盖的语义理解数据集,MIM模型仍然可以实现极具竞争力的迁移性能。通过对MIM有更深入的理解,我们希望我们的研究能够激发该领域的新的、扎实的研究方向。