8 天前
ProMix:通过最大化干净样本效用以应对标签噪声
Ruixuan Xiao, Yiwen Dong, Haobo Wang, Lei Feng, Runze Wu, Gang Chen, Junbo Zhao

摘要
带有噪声标签的学习(Learning with Noisy Labels, LNL)已成为一个备受关注的研究方向,因为标注不完善的样本相对更易于获取,成本更低。近年来的先进方法通常采用特定的样本选择机制,将干净样本与噪声样本分离,并结合半监督学习(Semi-Supervised Learning, SSL)技术以提升模型性能。然而,现有选择步骤通常仅能获得一个规模中等、质量尚可的干净样本子集,从而忽略了大量潜在的干净样本。为解决这一问题,本文提出一种新颖的LNL框架——ProMix,旨在最大化利用干净样本以进一步提升模型性能。本方法的核心在于提出一种“匹配高置信度选择”策略:该策略选取那些预测置信度高且预测结果与给定标签一致的样本,动态扩展基础干净样本集合。为进一步缓解过度选择干净样本可能带来的副作用,我们进一步设计了一种新型的SSL框架,能够在分离后的干净样本与噪声样本上训练出平衡且无偏的分类器。大量实验结果表明,ProMix在多个具有不同类型和不同程度噪声的基准数据集上显著超越当前最先进的方法。在CIFAR-N数据集上,其平均性能提升达2.48%。相关代码已开源,地址为:https://github.com/Justherozen/ProMix。