17 天前

用于带噪声标签学习的精细样本

Taehyeon Kim, Jongwoo Ko, Sangwook Cho, Jinhwan Choi, Se-Young Yun
用于带噪声标签学习的精细样本
摘要

现代深度神经网络(DNN)在训练数据包含噪声标签(即错误标签)时变得极为脆弱。针对噪声标签的鲁棒学习技术大致可分为两类:一类是设计对噪声具有鲁棒性的损失函数,另一类则是通过检测噪声数据来实现标签清洗。近年来,标签清洗方法被广泛认为是当前最具竞争力的噪声标签学习算法。尽管取得了显著成功,但现有方法中的噪声标签检测器大多基于启发式策略而非理论支撑,通常依赖于一个鲁棒分类器对样本的损失值进行预测,从而识别噪声样本。本文提出一种新型噪声标签检测方法,用于过滤噪声样本。与大多数现有方法不同,我们关注每个数据样本的潜在表示动态,并通过数据核矩阵(Gram matrix)的特征分解,衡量潜在分布与每个样本表示之间的对齐程度。所提出的框架被命名为“基于特征向量过滤噪声样本”(Filtering Noisy Instances via their Eigenvectors, FINE),其具有无需梯度计算的简洁方法,并具备理论保证的鲁棒性。在该框架下,我们提出了FINE的三种应用:样本选择方法、半监督学习方法,以及与噪声鲁棒损失函数的协同机制。实验结果表明,在多个基准数据集上,所提出的三种方法在各自应用场景中均持续优于相应的基线方法。