6 个月前

摘要

当前最具竞争力的噪声标签学习方法依赖于对干净样本与噪声样本的无监督分类，其中被识别为噪声的样本会被重新标注，并与干净样本进行“MixMatch”处理。然而，这类方法在高噪声率场景下面临两个关键问题：1）噪声样本集合中更可能包含难以区分的困难样本，导致其被错误地重新标注；2）由于MixMatch生成样本的数量受限于干净样本集合的规模，当干净样本较少时，生成样本的数量也会相应减少。本文提出一种新型学习算法——PropMix，以有效应对上述挑战。PropMix通过过滤掉困难的噪声样本，旨在提升对简单噪声样本正确重新标注的概率。同时，PropMix将干净样本与重新标注后的简单噪声样本共同纳入一个经过MixUp增强的训练集，从而摆脱了对干净样本数量的依赖，并显著增加了正确重新标注的简单噪声样本在训练数据中的比例。此外，我们引入自监督预训练机制，进一步增强模型在高噪声标签场景下的鲁棒性。实验结果表明，PropMix在多个基准数据集上均取得了当前最优（SOTA）性能，包括CIFAR-10、CIFAR-100（涵盖对称噪声、非对称噪声及语义噪声）、Red Mini-ImageNet（来自Controlled Noisy Web Labels数据集）、Clothing1M以及WebVision。在严重标签噪声的基准测试中，PropMix的表现显著优于现有其他方法。代码已开源，获取地址为：https://github.com/filipe-research/PropMix。

源 PDF