6 个月前

摘要

半监督学习因其在融合无标签数据方面的成功而受到广泛关注。为缓解潜在错误伪标签带来的影响，现有框架通常设定固定的置信度阈值，以剔除置信度不确定的样本。这一策略虽能保障伪标签的质量，但导致对全部无标签数据的利用率相对较低。本文的核心洞察在于：只要能够识别并剔除与最高置信度类别存在混淆的类别，原本不确定的样本即可被转化为确定性样本。受此启发，我们提出一种名为 ShrinkMatch 的新方法，用于学习不确定样本。对于每个不确定样本，该方法自适应地构建一个“收缩类别空间”，该空间仅包含原始的最高置信度类别以及其余可能性较低的类别。由于在该空间中已剔除混淆类别，重新计算的最高置信度值即可满足预设的置信阈值要求。随后，我们在收缩空间内对一对强增强与弱增强样本施加一致性正则化，以学习更具判别性的特征表示。此外，考虑到不确定样本之间可靠性存在差异，且模型在训练过程中逐步优化，我们进一步设计了两种相应的重加权机制，用于处理不确定样本的损失。实验结果表明，所提方法在多个广泛采用的基准数据集上均表现出卓越的性能。代码已开源，地址为：https://github.com/LiheYoung/ShrinkMatch。

源 PDF