17 天前

误差有界的噪声标签校正

Songzhu Zheng, Pengxiang Wu, Aman Goswami, Mayank Goswami, Dimitris Metaxas, Chao Chen
摘要

为了收集大规模的标注数据,不可避免地会引入标签噪声,即错误的类别标签。为增强对标签噪声的鲁棒性,许多成功的算法依赖于噪声分类器(即在含噪训练数据上训练得到的模型)来判断某个标签是否可信。然而,这一启发式方法为何在实践中表现良好,长期以来仍缺乏理论解释。本文首次为这类方法提供了理论依据。我们证明了噪声分类器的预测结果确实可以作为判断训练数据标签是否干净的有效指标。基于该理论结果,我们提出了一种新型标签校正算法,该算法根据噪声分类器的预测结果对标签进行修正,修正后的标签以高概率与真实的贝叶斯最优分类器保持一致。我们将该标签校正算法集成到深度神经网络的训练过程中,所训练的模型在多个公开数据集上均取得了优于现有方法的测试性能。