2 个月前

揭示掩码图像建模的隐秘黑暗面

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao

摘要

掩码图像建模（MIM）作为预训练方法已被证明对众多视觉下游任务有效，但其工作原理和作用位置仍不清楚。在本文中，我们从两个角度——可视化和实验——将MIM与长期以来占主导地位的监督预训练模型进行比较，以揭示它们的关键表示差异。通过可视化分析，我们发现MIM为训练模型的所有层带来了局部归纳偏置，而监督模型则倾向于在较低层关注局部特征，在较高层关注全局特征。这可能是MIM有助于具有非常大感受野的视觉变换器优化的原因。使用MIM时，模型可以在所有层中保持较大的注意力头多样性。而对于监督模型，注意力头的多样性几乎在最后三层消失，较少的多样性会损害微调性能。通过实验我们发现，与监督模型相比，MIM模型在几何和运动任务（这些任务语义较弱或需要细粒度分类）上表现显著更好。无需任何额外技巧，标准的MIM预训练SwinV2-L模型在姿态估计（COCO测试开发集上的AP为78.9%，CrowdPose上的AP为78.0%）、深度估计（NYUv2上的RMSE为0.287，KITTI上的RMSE为1.966）以及视频目标跟踪（LaSOT上的SUC为70.7%）等任务上达到了最先进的性能。对于类别已由监督预训练充分覆盖的语义理解数据集，MIM模型仍然可以实现极具竞争力的迁移性能。通过对MIM有更深入的理解，我们希望我们的研究能够激发该领域的新的、扎实的研究方向。