11 天前

孤立森林

{Zhi-Hua Zhou, Kai Ming Ting, Fei Tony Liu}
摘要

现有的大多数基于模型的异常检测方法通过构建正常实例的特征轮廓,将偏离该轮廓的实例识别为异常。本文提出了一种根本不同的基于模型的方法——iForest,其核心思想是显式地隔离异常点,而非建模正常点的特征。据我们所知,当前文献中尚未探讨“隔离”这一概念。通过引入隔离机制,所提出的iForest方法能够充分利用子采样技术,其应用程度远超现有方法的可行性范围,从而实现具有线性时间复杂度、低常数因子和低内存需求的算法。实验评估结果表明,iForest在AUC指标和处理时间方面均优于ORCA(一种近线性时间复杂度的距离基方法)、LOF(局部异常因子)以及随机森林(Random Forests),尤其在大规模数据集上表现突出。此外,iForest在高维数据问题中同样表现良好,即使数据中包含大量无关属性,或训练集中未包含任何异常样本,也能有效工作。

孤立森林 | 最新论文 | HyperAI超神经