8 天前

UNICON:通过均匀选择与对比学习应对标签噪声

Nazmul Karim, Mamshad Nayeem Rizve, Nazanin Rahnavard, Ajmal Mian, Mubarak Shah
UNICON:通过均匀选择与对比学习应对标签噪声
摘要

监督式深度学习方法需要大量标注数据,因此标签噪声不可避免。使用此类含噪声数据进行训练会显著影响深度神经网络的泛化性能。为应对标签噪声,当前最先进的方法通常采用某种样本选择机制,从中筛选出可能较为干净的数据子集,随后使用现成的半监督学习方法进行训练,将被剔除的样本视为未标注数据。我们通过全面分析发现,现有选择方法倾向于过度选择来自简单(易学习)类别的样本,而忽略相对困难类别的样本。这种不均衡的选择导致所选“干净”数据集中出现类别失衡,进而在高标签噪声环境下严重损害模型性能。为此,本文提出UNICON——一种简单但高效且对高标签噪声具有强鲁棒性的样本选择方法。为解决易样本与难样本选择不均衡的问题,我们引入一种基于Jensen-Shannon散度的均匀选择机制,该机制无需任何概率建模或超参数调优。此外,我们结合对比学习(contrastive learning)进一步抑制模型对噪声标签的过拟合记忆。在多个基准数据集上的大量实验表明,UNICON具有显著有效性:在CIFAR100数据集上,当标签噪声率达到90%时,相比当前最先进方法,性能提升达11.4%。相关代码已公开发布。