13 天前

与架构无关的掩码图像建模——从ViT回归CNN

Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li

摘要

掩码图像建模（Masked Image Modeling, MIM）作为一种新兴的自监督预训练方法，在视觉Transformer模型上已在众多下游视觉任务中展现出卓越的性能。其核心思想简洁明了：对输入图像的部分区域进行掩码处理，随后通过预训练任务实现图像的重建。然而，MIM的内在工作机制尚未得到充分阐释，以往研究普遍认为MIM主要适用于Transformer架构，难以与卷积神经网络（CNN）兼容。在本工作中，我们发现MIM本质上是引导模型学习图像块之间更优的中阶交互关系，从而实现更具泛化能力的特征提取。基于此，我们提出了一种架构无关的掩码图像建模框架——A²MIM（Architecture-Agnostic Masked Image Modeling），该框架以统一方式兼容Transformer与CNN架构。在多个主流基准上的大量实验表明，A²MIM无需显式设计即可学习到更优的表征，并显著增强骨干网络向各类下游任务迁移的能力。