8 个月前

摘要

深度网络的记忆效应表明，模型会优先记忆标签干净的训练数据，随后才开始记忆标签含噪声的数据。因此，早停法（early stopping）可被用于处理标签噪声问题。然而，噪声标签带来的副作用会在早停之前影响模型对干净标签的记忆能力。本文受彩票猜想（lottery ticket hypothesis）的启发——该理论指出，仅有部分参数对模型泛化能力至关重要——我们进一步发现：在拟合干净标签并实现良好泛化方面，仅有部分参数起关键作用，我们称之为关键参数（critical parameters）；而其余参数则倾向于拟合噪声标签，难以实现良好泛化，称为非关键参数（non-critical parameters）。基于这一发现，本文提出鲁棒早学习（robust early-learning）方法，旨在减轻噪声标签在早停前带来的负面影响，从而增强模型对干净标签的记忆能力。具体而言，在每次迭代中，我们将所有参数划分为关键参数与非关键参数，并针对不同类型参数采用不同的更新策略。在多个基准模拟数据集和真实世界标签噪声数据集上的大量实验表明，所提出的方法在处理标签噪声问题方面显著优于当前最先进的方法。

源 PDF