
摘要
在自动驾驶、医疗健康等任务关键型领域,量化输入样本的不确定性尤为重要,因为模型在分布外(Out-of-Distribution, OOD)数据上的误判可能导致严重后果。OOD检测问题的根本原因在于:模型无法表达其自身未认知的内容。由于无需额外的再训练过程,避免了模型性能下降和训练成本增加的问题,因此后处理(post-hoc)OOD检测方法受到广泛关注。在本研究中,我们从模型深层神经元所表征的高层语义特征角度出发,提出了一种分析模型在分布内(in-distribution)数据与OOD数据之间输出差异的新视角。为此,我们提出了一种新型后处理OOD检测方法——基于重要神经元的检测方法(Leveraging Important Neurons, LINe)。该方法通过基于Shapley值的神经元剪枝策略,仅保留对特定类别预测具有高贡献的神经元,屏蔽其余神经元,从而有效抑制噪声输出的影响。同时,引入激活值截断(activation clipping)机制,将超过某一阈值的所有激活值统一为固定值,使LINe能够对各类别特定特征进行等价处理,进而聚焦于分布内与分布外数据在激活特征数量上的差异。大量实验结果表明,所提出的方法在CIFAR-10、CIFAR-100和ImageNet等多个基准数据集上均显著优于当前最先进的后处理OOD检测方法,充分验证了其有效性与优越性。