11 天前

对比微调:一点帮助让掩码自编码器遗忘

Johannes Lehner, Benedikt Alkin, Andreas Fürst, Elisabeth Rumetshofer, Lukas Miklautz, Sepp Hochreiter
对比微调:一点帮助让掩码自编码器遗忘
摘要

掩码图像建模(Masked Image Modeling, MIM)方法,如掩码自编码器(Masked Autoencoders, MAE),能够高效地学习输入数据的丰富表征。然而,在适应下游任务时,这类方法通常需要大量标注数据,因为其学到的丰富特征不仅包含物体信息,还编码了与任务关联较弱的图像背景内容。相比之下,实例判别(Instance Discrimination, ID)方法更专注于物体本身。本文研究如何结合MIM方法在效率与可扩展性方面的优势,以及ID方法在缺乏大规模标注数据条件下实现下游分类的能力。为此,我们提出了一种名为掩码自编码器对比微调(Masked Autoencoder Contrastive Tuning, MAE-CT)的序列化方法。该方法利用最近邻对比学习(Nearest Neighbor Contrastive Learning, NNCLR)目标所隐含的聚类特性,引导预训练MAE模型顶层特征形成抽象语义聚类,从而实现无监督的表征优化。MAE-CT在不依赖任何标签的前提下,对MAE的丰富特征进行调优,使其能够自然地形成语义上一致的物体簇。值得注意的是,MAE-CT无需依赖人工设计的数据增强策略,且在仅使用最小程度增强(如裁剪与翻转)的情况下,往往能够取得最佳性能。此外,MAE-CT具有良好的计算效率,其额外开销最多仅为MAE重新训练的10%。当应用于大型及超大型视觉Transformer(Vision Transformer, ViT)模型时,MAE-CT在线性探测(linear probing)、k-近邻分类(k-NN)、低样本分类(low-shot classification)以及无监督聚类等任务上的表现,全面超越此前在ImageNet上训练的自监督方法。其中,基于ViT-H/16架构的MAE-CT在线性探测任务上达到了82.2%的准确率,创下新的最先进水平(state-of-the-art)。

对比微调:一点帮助让掩码自编码器遗忘 | 最新论文 | HyperAI超神经