11 天前

对比微调：一点帮助让掩码自编码器遗忘

Johannes Lehner, Benedikt Alkin, Andreas Fürst, Elisabeth Rumetshofer, Lukas Miklautz, Sepp Hochreiter

摘要

掩码图像建模（Masked Image Modeling, MIM）方法，如掩码自编码器（Masked Autoencoders, MAE），能够高效地学习输入数据的丰富表征。然而，在适应下游任务时，这类方法通常需要大量标注数据，因为其学到的丰富特征不仅包含物体信息，还编码了与任务关联较弱的图像背景内容。相比之下，实例判别（Instance Discrimination, ID）方法更专注于物体本身。本文研究如何结合MIM方法在效率与可扩展性方面的优势，以及ID方法在缺乏大规模标注数据条件下实现下游分类的能力。为此，我们提出了一种名为掩码自编码器对比微调（Masked Autoencoder Contrastive Tuning, MAE-CT）的序列化方法。该方法利用最近邻对比学习（Nearest Neighbor Contrastive Learning, NNCLR）目标所隐含的聚类特性，引导预训练MAE模型顶层特征形成抽象语义聚类，从而实现无监督的表征优化。MAE-CT在不依赖任何标签的前提下，对MAE的丰富特征进行调优，使其能够自然地形成语义上一致的物体簇。值得注意的是，MAE-CT无需依赖人工设计的数据增强策略，且在仅使用最小程度增强（如裁剪与翻转）的情况下，往往能够取得最佳性能。此外，MAE-CT具有良好的计算效率，其额外开销最多仅为MAE重新训练的10%。当应用于大型及超大型视觉Transformer（Vision Transformer, ViT）模型时，MAE-CT在线性探测（linear probing）、k-近邻分类（k-NN）、低样本分类（low-shot classification）以及无监督聚类等任务上的表现，全面超越此前在ImageNet上训练的自监督方法。其中，基于ViT-H/16架构的MAE-CT在线性探测任务上达到了82.2%的准确率，创下新的最先进水平（state-of-the-art）。