
摘要
由于深度神经网络具有极强的表达能力,其副作用是即便标签噪声极其严重,仍会完全记忆训练数据。为克服在噪声标签下的过拟合问题,我们提出了一种新颖的鲁棒训练方法——SELFIE。其核心思想是:有选择性地修复并利用那些能够以高精度纠正的不干净样本,从而逐步增加可用训练样本的数量。借助这一设计,SELFIE有效防止了因错误纠正导致的噪声累积风险,同时充分挖掘了训练数据的潜力。为验证SELFIE的优越性,我们在四个真实世界或合成数据集上开展了大量实验。结果表明,与两种最先进的方法相比,SELFIE在绝对测试误差方面实现了显著提升。