
摘要
长尾学习近年来受到广泛关注,其目标在于提升尾部类别(tail classes)的泛化能力。然而,现有大多数方法均采用监督学习范式,未充分考虑训练数据中普遍存在的标签噪声问题。为使长尾学习更贴近真实应用场景,本文研究了在长尾标签分布下标签噪声所带来的挑战。我们首先观察到,噪声标签对现有方法的性能产生了显著负面影响,揭示了该问题的内在难点。尽管在以往文献中,小损失(small-loss)策略是应对标签噪声的常用手段,但我们发现该方法在长尾分布下失效。其根本原因在于,深度神经网络难以区分尾部类别中正确标注与错误标注的样本。为克服这一局限,我们提出一种新型原型噪声检测方法,通过设计一种对标签噪声具有鲁棒性的基于距离的度量机制,有效识别噪声样本。基于上述发现,我们进一步提出一个鲁棒性框架——~\algo,该框架能够实现长尾学习中的噪声检测,并结合标签平滑(label smoothing)与多样化标签猜测策略,进行软伪标签生成。此外,该框架可自然地融合半监督学习算法,进一步提升模型泛化性能。在多个基准数据集和真实世界数据集上的大量实验表明,所提方法显著优于现有基线方法。特别地,我们的方法在测试准确率上比 DivideMix 提升了 3%。相关源代码即将开源。