
摘要
监督学习可被视作从输入数据中提炼出相关特征表示的过程。当监督信号存在噪声时,这一过程变得尤为困难,因为所提炼的信息可能并不具备实际相关性。事实上,近期研究表明,神经网络极易对所有标签(包括被污染的标签)产生过拟合,因而难以在干净数据集上实现有效泛化。本文聚焦于噪声标签学习问题,提出在神经网络架构中引入压缩归纳偏置(compression inductive bias),以缓解过拟合问题。具体而言,我们重新审视了一种经典的正则化方法——Dropout及其变体嵌套Dropout(Nested Dropout)。Dropout通过随机丢弃特征的机制,可作为一种压缩约束;而嵌套Dropout进一步学习特征表示的有序结构,以反映特征的重要性。此外,通过压缩正则化训练得到的模型,进一步与Co-teaching方法相结合,以实现性能提升。理论上,我们对压缩正则化下的目标函数进行了偏差-方差分解,分别针对单模型与Co-teaching框架进行分析。该分解揭示了三个关键洞见:(i)明确表明在噪声标签学习中,过拟合确实是一个核心问题;(ii)通过信息瓶颈(information bottleneck)的理论框架,解释了为何所提出的特征压缩机制能够有效缓解标签噪声的影响;(iii)为将压缩正则化引入Co-teaching所带来的性能增益提供了理论解释。实验结果表明,本文提出的简单方法在包含真实世界标签噪声的基准数据集(如Clothing1M和ANIMAL-10N)上,性能可达到甚至超越当前最先进方法。相关代码实现已公开,地址为:https://yingyichen-cyy.github.io/CompressFeatNoisyLabels/。