6 个月前

摘要

掩码自编码器（Masked AutoEncoders, MAE）作为一种强大的自监督学习框架，已在众多下游任务中展现出卓越的性能。为提升预训练任务的难度并学习更丰富的视觉表征，现有方法倾向于用更复杂的掩码策略替代传统的随机掩码，例如对抗引导掩码和教师引导掩码等。然而，这些策略通常依赖于输入数据，导致模型复杂度增加，并需额外计算以生成掩码模式，带来显著的计算开销。这引发了一个关键问题：我们能否在不依赖输入数据、且不引入额外计算成本的前提下，进一步提升MAE的性能？在本工作中，我们提出了一种简单而高效的数据无关方法——ColorMAE，该方法通过过滤随机噪声生成不同的二值掩码模式。受图像处理中色彩噪声的启发，我们探索了四种不同类型的滤波器，以生成具有不同空间结构与语义先验特性的掩码模式。ColorMAE无需引入任何可学习参数，也不增加网络的计算负担，却能显著增强模型所学习到的视觉表征能力。我们进行了全面的实证评估，结果表明，相较于传统的随机掩码策略，本方法在各类下游任务中均表现出明显优势。尤为突出的是，在语义分割任务中，相较于基线MAE模型，我们的方法实现了mIoU指标2.72的提升。

源 PDF