8 天前

聚类可分性作为学习噪声标签时锚点的替代方案

Zhaowei Zhu, Yiwen Song, Yang Liu
聚类可分性作为学习噪声标签时锚点的替代方案
摘要

标签噪声转移矩阵(label noise transition matrix)刻画了训练样本被错误标注的概率,是设计当前主流噪声标签学习方法的关键。现有方法普遍依赖于寻找“锚点”(anchor points)或其近似,所谓锚点是指几乎可以确定属于某一特定类别的样本。然而,锚点的识别本身仍是一个具有挑战性的任务,且其估计精度往往受限于可获取锚点的数量。本文提出了一种替代上述方法的新思路。我们的主要贡献在于发现了一种基于可聚类性(clusterability)条件的高效估计方法。我们证明,在特征表示具备可聚类性的前提下,仅需利用邻近表示之间噪声标签的三阶一致性(up to third-order consensuses),即可唯一地估计出转移矩阵。相较于依赖锚点的方法,我们的方法利用了更多样本,显著提升了样本复杂度(sample complexity)的效率。我们在合成噪声标签(在CIFAR-10/100上)以及真实人类标注的噪声标签(在Clothing1M数据集及我们自收集的人类标注CIFAR-10数据集上)上均验证了所提估计方法的准确性及其优势。相关代码与人类水平噪声的CIFAR-10标签数据已开源,地址为:https://github.com/UCSC-REAL/HOC。