9 天前

自监督学习对数据集不平衡具有更强的鲁棒性

Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma
自监督学习对数据集不平衡具有更强的鲁棒性
摘要

自监督学习(Self-supervised Learning, SSL)是一种可扩展的通用视觉表征学习方法,因其无需依赖标签即可进行学习而备受关注。然而,在现实世界中大规模的无标签数据集通常呈现出长尾标签分布,而我们对SSL在此类数据分布下的行为仍知之甚少。本文系统地研究了在数据集不平衡条件下的自监督学习。首先,通过大量实验我们发现,现成的自监督表征已经比有监督学习表征对类别不平衡具有更强的鲁棒性。无论在域内还是域外评估中,尤其是在域外评估中,使用SSL进行平衡与不平衡预训练之间的性能差距显著小于有监督学习的相应差距,且该现象在不同样本规模下均成立。其次,为理解SSL的鲁棒性来源,我们提出一个假设:SSL能够从频繁出现的数据中学习到更丰富的特征,包括与标签无关但具备可迁移性的特征,这些特征有助于对稀有类别及下游任务进行分类。相比之下,有监督学习缺乏从频繁样本中学习与标签无关特征的动机。我们通过半合成实验以及在简化设定下的理论分析,验证了该假设。最后,基于上述理论洞见,我们设计了一种重加权正则化技术,该技术在多种评估标准下均能持续提升SSL在不平衡数据集上的表征质量,显著缩小了相同样本数量下平衡与不平衡数据集之间的性能差距。