17 天前

基于距离的离群点的概率变换

David Muhr, Michael Affenzeller, Josef Küng
基于距离的离群点的概率变换
摘要

基于距离的异常检测方法所得的得分难以解释,因此在缺乏额外上下文的情况下,难以确定正常数据点与异常数据点之间的阈值分割。本文提出一种通用的转换方法,可将基于距离的异常得分转化为可解释的、概率意义上的估计值。该转换方法具有排序稳定性,能够增强正常样本与异常样本之间的对比度。虽然确定数据点之间的距离关系是识别最近邻关系的前提,但大多数计算出的距离通常被忽略。我们证明,其他数据点的距离信息可用于建模距离的概率分布,进而利用这些分布将基于距离的异常得分转化为异常概率。实验结果表明,该概率转换方法在多种表格数据和图像基准数据集上并未影响异常检测的性能,但显著提升了异常得分的可解释性,并增强了正常样本与异常样本之间的区分对比度。本方法适用于广泛的基于距离的异常检测算法,且由于复用了现有的距离计算结果,因此几乎不增加额外的计算开销。