
摘要
在部署于风险敏感型任务时,深度神经网络必须能够识别出其训练数据分布之外的类别样本。本文提出了一种新颖的框架,用于在不同检测难度下评估图像分类器识别“类别分布外”(class-out-of-distribution, C-OOD)样本的能力,即那些真实标签未出现在训练分布中的样本。我们将该方法应用于ImageNet数据集,并对525个公开可用、预训练的ImageNet-1k分类器进行了基准测试。生成任意ImageNet-1k分类器基准的代码,以及为上述525个模型预先准备的基准数据,均可在 https://github.com/mdabbah/COOD_benchmarking 获取。通过分析这些模型的测试结果,本文所提出的框架的有效性及其相较于现有其他基准的优势得到了充分验证,揭示出多项新颖发现,包括:(1)知识蒸馏在提升C-OOD检测性能方面具有持续性优势;(2)部分视觉Transformer(ViT)模型在C-OOD检测任务上的表现优于所有其他模型;(3)语言-视觉联合模型CLIP在零样本C-OOD检测中表现出色,其最佳实例性能超越了所评估的96%的其他模型;(4)分类准确率与分布内排序性能与C-OOD检测能力呈正相关;(5)我们系统比较了多种置信度函数在C-OOD检测中的表现。作为本工作的配套论文,同样发表于ICLR 2023的《What Can We Learn From The Selective Prediction And Uncertainty Estimation Performance Of 523 Imagenet Classifiers》,进一步探讨了这些分类器在分布内设置下的不确定性估计性能,涵盖排序能力、校准性以及选择性预测表现。