17 天前

训练对所有标签噪声水平均具有鲁棒性的分类器

Jingyi Xu, Tony Q. S. Quek, Kai Fong Ernest Chong
训练对所有标签噪声水平均具有鲁棒性的分类器
摘要

在分类任务中,深度神经网络在标签噪声存在的情况下容易发生过拟合。尽管现有方法在低噪声水平下能够缓解该问题,但在高噪声水平下,或在标签噪声呈现非对称性时,即便噪声处于中等水平,其性能也会显著下降。为训练出对所有噪声水平均具有普遍鲁棒性、且不敏感于噪声模型任何变化的分类器,本文提出一种基于知识蒸馏的框架,并引入了一种新的正-未标记学习(Positive-Unlabeled Learning)子类别。具体而言,我们假设给定的噪声数据集中存在一个已知标签正确的子集,将其视为“正样本”(positive),而其余带有噪声的样本则视为“未标记样本”(unlabeled)。本框架包含以下两个核心组件:(1)通过迭代更新,从“未标记”样本中筛选出更多可靠的“正样本”,从而构建一个增强的清洁样本子集;(2)在该扩大的增强清洁数据集上训练一个教师模型。随后,在教师模型的指导之下,使用整个原始数据集训练一个学生模型。我们在CIFAR-10数据集上进行了大量实验,分别在对称与非对称的合成标签噪声下测试了多种噪声水平。实验结果表明,本框架在中高噪声水平下普遍优于现有方法。此外,我们在一个真实世界中的噪声数据集Clothing1M上进行了评估,相较于现有最先进方法,本框架在准确率上实现了2.94%的提升。