17 天前

面向图像分类的鲁棒且实时的数据集去噪

Jiaming Song, Lunjia Hu, Michael Auli, Yann Dauphin, Tengyu Ma
面向图像分类的鲁棒且实时的数据集去噪
摘要

在参数量过大的神经网络中,对错误标注样本的过度记忆会严重损害模型的泛化能力。然而,在通过弱监督方式收集的超大规模数据集中,错误标注样本几乎难以避免。为解决这一问题,我们采用反事实推理的方法,分析当使用真实样本进行训练时,若将随机均匀标签的样本纳入训练,其损失分布应呈现何种特征,并利用该信息从训练集中剔除噪声样本。首先,我们观察到:在使用较大的学习率进行随机梯度下降训练时,具有均匀随机标签的样本其损失值普遍更高。随后,我们提出仅基于网络参数来建模这类反事实样本的损失分布,该方法能够极为准确地捕捉此类样本的损失特性。最后,我们建议移除其损失值超过建模所得损失分布某一分位数的样本。由此提出一种名为“实时数据去噪”(On-the-fly Data Denoising, ODD)的算法,该方法简单而高效,对错误标注样本具有强鲁棒性,且相较于标准训练过程,计算开销几乎可忽略不计。ODD 在多种数据集上均取得了当前最优的性能表现,涵盖包括 WebVision 和 Clothing1M 等真实世界数据集。