6 个月前

摘要

本文研究了在微调下游分类任务时，分类标签位置的随机初始化唯一编码对视觉掩码自监督预训练模型的影响。研究发现，即使采用相同的分类数据集分配策略，不同的随机初始化会导致微调结果出现显著差异。这些结果之间的准确率差距表明，视觉掩码自监督预训练模型对分类标签位置存在固有的偏好。为深入探究这一现象，本文将其与非自监督的视觉预训练模型进行对比，并提出假设：掩码自监督模型对特定标签位置表现出一种“自我意识”式的偏差。为缓解随机编码带来的不稳定性，本文提出一种分类标签位置排序算法——Label Ranker。该算法基于线性判别分析（Linear Discriminant Analysis, LDA）对特征图进行一维降维，并利用欧氏距离的相似性特性，通过无监督特征聚类实现位置-等级编码。该方法能够使标签位置编码与模型的内在偏好相匹配。在CIFAR-100、UCF101和HMDB51等多个分类数据集上，基于ImageMAE和VideoMAE模型的大量消融实验验证了本方法的有效性。实验结果表明，所提出的方法能够有效稳定分类标签位置的编码过程，显著提升视觉掩码自监督模型在微调任务中的性能表现。

源 PDF 查看代码