
摘要
深度神经网络在将数据嵌入潜在表示并完成后续任务方面具有强大的能力。然而,这种能力在很大程度上依赖于高质量的标注数据,而高质量标注的获取成本高昂。相比之下,噪声标签虽然更为经济,却会导致表示质量下降,进而造成模型泛化性能不佳。为学习鲁棒的表示并有效应对噪声标签问题,本文提出了一种选择性监督对比学习方法(Selective-Supervised Contrastive Learning, Sel-CL)。 具体而言,Sel-CL 在监督对比学习(Supervised Contrastive Learning, Sup-CL)的基础上进行扩展。Sup-CL 在表示学习中表现优异,但在存在噪声标签时性能显著退化。Sel-CL 针对 Sup-CL 性能下降的根本原因进行改进:由于 Sup-CL 以成对(pair-wise)方式运作,噪声标签所构建的噪声样本对会误导表示学习过程。为缓解该问题,本文在无需预先知晓噪声率的情况下,从大量噪声样本对中筛选出可信的样本对用于 Sup-CL。 在筛选过程中,首先通过衡量学习到的表示与给定标签之间的一致性,识别出可信样本;随后,利用所构建可信样本对中表示相似度的分布特性,进一步从噪声样本对中挖掘出更多可信样本对。最终,所有筛选出的可信样本对被用于 Sup-CL,以增强模型的表示能力。 在多个存在噪声标签的数据集上的实验结果表明,本文方法所学习到的表示具有优异的鲁棒性,且性能达到当前最先进水平。代码已开源,地址为:https://github.com/ShikunLi/Sel-CL。