8 天前

Knockoffs-SPR:噪声标签学习中的干净样本选择

Yikai Wang, Yanwei Fu, Xinwei Sun
Knockoffs-SPR:噪声标签学习中的干净样本选择
摘要

噪声标签训练集通常会导致神经网络泛化能力与鲁棒性的下降。本文提出了一种具有理论保障的清洁样本选择框架,用于处理带噪声标签的学习任务。具体而言,我们首先提出一种可扩展的惩罚回归方法(Scalable Penalized Regression, SPR),用于建模网络特征与独热编码标签之间的线性关系。在SPR中,通过回归模型求解出的零均值偏移参数来识别清洁数据。我们从理论上证明,在一定条件下,SPR能够准确恢复出清洁样本。然而,在一般场景下,这些理论条件可能不再成立,导致部分噪声数据被错误地选为清洁数据。为解决该问题,我们进一步提出一种基于敲扑滤波器(Knockoff filters)的自适应数据处理方法——Knockoffs-SPR,该方法可严格保证所选清洁样本中的误选率(False-Selection-Rate, FSR)得到控制。为进一步提升效率,我们设计了一种分治算法,将整个训练集划分为若干小块,实现并行求解,从而使得该框架具备处理大规模数据集的可扩展性。尽管Knockoffs-SPR可作为标准监督学习流水线中的样本选择模块,我们还进一步将其与半监督学习算法相结合,充分利用噪声数据作为无标签数据的潜在支持。在多个基准数据集及真实世界噪声数据集上的实验结果表明,所提框架具有显著有效性,并验证了Knockoffs-SPR的理论性质。相关代码与预训练模型已开源,地址为:https://github.com/Yikai-Wang/Knockoffs-SPR。