
摘要
近年来,基于自监督学习的图像表征方法主要通过最大化同一图像不同视图所生成的嵌入向量之间的一致性来实现。然而,当编码器输出恒定向量时,会出现一种平凡解(trivial solution),导致表征退化,即所谓的“坍塌”问题。目前,该问题通常通过学习架构中隐含的偏差来规避,但这些偏差往往缺乏清晰的理论依据或可解释性。本文提出一种新方法——VICReg(方差-不变性-协方差正则化),通过在每个嵌入维度上施加一个简单的方差正则化项,显式地防止坍塌问题的发生。VICReg将该方差项与基于冗余消除的去相关机制及协方差正则化相结合,在多个下游任务上取得了与当前最先进方法相当的性能。此外,我们还证明,将所提出的方差正则化项引入其他现有方法中,能够有效稳定训练过程,并带来性能提升。