6 个月前

摘要

噪声标签训练集通常会导致神经网络泛化能力与鲁棒性的下降。本文提出了一种具有理论保障的清洁样本选择框架，用于处理带噪声标签的学习任务。具体而言，我们首先提出一种可扩展的惩罚回归方法（Scalable Penalized Regression, SPR），用于建模网络特征与独热编码标签之间的线性关系。在SPR中，通过回归模型求解出的零均值偏移参数来识别清洁数据。我们从理论上证明，在一定条件下，SPR能够准确恢复出清洁样本。然而，在一般场景下，这些理论条件可能不再成立，导致部分噪声数据被错误地选为清洁数据。为解决该问题，我们进一步提出一种基于敲扑滤波器（Knockoff filters）的自适应数据处理方法——Knockoffs-SPR，该方法可严格保证所选清洁样本中的误选率（False-Selection-Rate, FSR）得到控制。为进一步提升效率，我们设计了一种分治算法，将整个训练集划分为若干小块，实现并行求解，从而使得该框架具备处理大规模数据集的可扩展性。尽管Knockoffs-SPR可作为标准监督学习流水线中的样本选择模块，我们还进一步将其与半监督学习算法相结合，充分利用噪声数据作为无标签数据的潜在支持。在多个基准数据集及真实世界噪声数据集上的实验结果表明，所提框架具有显著有效性，并验证了Knockoffs-SPR的理论性质。相关代码与预训练模型已开源，地址为：https://github.com/Yikai-Wang/Knockoffs-SPR。

源 PDF