
摘要
半监督学习(Semi-Supervised Learning, SSL)是一种有效利用未标注数据以提升模型性能的方法。典型的SSL方法(如FixMatch)通常假设已标注数据与未标注数据共享相同的标签空间。然而,在实际应用中,未标注数据可能包含在已标注数据集中未出现的类别,即异常样本(outliers),这类样本会显著损害SSL算法的性能。为应对这一挑战,本文提出了一种新型的开放集半监督学习(Open-set Semi-Supervised Learning, OSSL)方法——OpenMatch。在OSSL中,学习正常样本(inliers)的表示并有效剔除异常样本是取得成功的关键。为此,OpenMatch将FixMatch框架与基于一对多(One-vs-All, OVA)分类器的新型检测机制相结合。OVA分类器能够输出样本属于正常类别的置信度得分,从而提供一个用于异常检测的阈值。另一个重要贡献是提出了一种开放集软一致性正则化损失(open-set soft-consistency regularization loss),该损失函数通过增强OVA分类器对输入变换的平滑性,显著提升了异常检测能力。实验结果表明,所提方法在三个基准数据集上均达到了当前最优性能,尤其在CIFAR10数据集上,其在检测未标注数据中未见异常类别方面,甚至超越了全监督模型的表现。代码已开源,地址为:https://github.com/VisionLearningGroup/OP_Match。