
摘要
深度神经网络在面对未见过的类别样本时,往往仍会给出高置信度的预测结果,而这些样本本应被标记并交由专家进行评估。现有的新颖性检测(novelty detection)算法通常无法可靠地识别此类接近分布外(near OOD)的样本,除非能够获取与这些新型样本相似的带标签数据。本文提出了一种基于集成学习的半监督新颖性检测(Semi-Supervised Novelty Detection, SSND)新方法,该方法有效利用了未标记的已知类别(ID)样本与新型类别样本的混合数据,实现了优异的检测性能。特别地,我们展示了如何通过早停正则化(early stopping regularization)机制,仅在分布外(OOD)数据上诱导模型之间的分歧,从而提升检测能力。尽管该理论性质在一种简单数据分布下得到严格证明,但大量实验结果表明,该方法在更复杂的场景中同样有效:在标准图像数据集(SVHN/CIFAR-10/CIFAR-100)以及医学图像数据集上,我们的方法显著优于当前最先进的半监督新颖性检测技术,且计算开销仅略有增加。