6 个月前

摘要

从噪声标签中学习是机器学习在真实应用场景中一个长期存在且至关重要的问题。当前主流的研究方向之一是构建标签校正器（label corrector），以净化潜在的噪声标签。然而，这类方法通常依赖于严格的假设，且仅适用于特定类型的标签噪声。本文从生成模型的视角重新审视标签噪声问题，即：标签是通过逐步修正一个初始的随机猜测而生成的。这一新视角使得现有的强大扩散模型能够无缝地学习该随机生成过程。一旦建模了生成过程中的不确定性，即可通过最大似然估计进行分类推理。为缓解噪声标签的影响，我们提出了一种标签检索增强型（Label-Retrieval-Augmented, LRA）扩散模型。该模型利用邻域一致性机制，有效构建用于扩散训练的伪清洁标签。所提方法具有高度的灵活性与通用性，可轻松融合多种类型的条件信息（例如预训练模型），从而进一步提升模型性能。我们在多个标准真实世界基准数据集上进行了大量实验评估。结果表明，我们的模型在所有基准数据集上均取得了新的最先进（SOTA）性能。尤为显著的是，当引入强大CLIP模型提供的条件信息后，该方法在多数情况下可将当前SOTA准确率提升10至20个百分点。

源 PDF