
尽管神经网络在监督学习方面取得了显著进展,但获取高质量、大规模且精确标注的数据集仍面临重大挑战。在此背景下,如何在标签噪声存在的情况下进行有效学习日益受到关注。作为一项相对复杂的问题,当前多数方法为了获得良好性能,通常融合了多个领域的技术组件,如监督学习、半监督学习和迁移学习,导致方法结构复杂。此外,这些方法往往对数据噪声类型做出多种假设,从而影响模型的鲁棒性,并限制其在不同噪声条件下的泛化能力。本文提出一种新颖的问题设定——未知标签噪声学习(Learning with Unknown Label Noise, LULN),即在标签噪声的强度和类型均未知的情况下进行学习。在此设定下,与以往方法通常引入多重假设并导致复杂解决方案不同,我们提出一种简单、高效且鲁棒的框架——样本选择与重标注(Sample Selection and Relabelling, SSR)。该方法仅需极少的超参数,即可在多种噪声条件下取得当前最优(SOTA)性能。本方法的核心机制基于两个分类器:一个非参数化的K近邻分类器(Non-parametric KNN classifier, NPK)$g_q$,用于识别干净样本;一个参数化模型分类器(Parametric Model Classifier, PMC)$g_p$,用于逐步重标注噪声样本。整个过程无需复杂的附加组件,如模型协同训练(co-training)、自监督预训练或半监督学习等,同时对少数超参数的设置具有较强的鲁棒性。实验结果表明,SSR在包含合成噪声的CIFAR-10/CIFAR-100数据集,以及真实世界中的噪声数据集(如WebVision、Clothing1M和ANIMAL-10N)上,均显著优于现有方法。相关代码已开源,地址为:https://github.com/MrChenFeng/SSR_BMVC2022。