
摘要
近年来,隔离森林(Isolation Forest, iForest)因其在多种基准测试中表现出的普遍有效性以及出色的可扩展性,已成为最受欢迎的异常检测方法之一。然而,其基于线性轴对齐的隔离机制常导致两个关键问题:(i)在高维或非线性可分数据空间中,难以有效识别难以隔离的复杂异常;(ii)存在显著的算法偏差,对人工构造的伪影区域(artefact regions)赋予异常得分过低的情况,从而引发较高的假阴性错误。尽管已有若干iForest的改进方法被提出,但这些方法本质上仍依赖于浅层、线性的数据划分策略,限制了其在真实异常隔离能力上的提升。为此,本文提出深度隔离森林(Deep Isolation Forest, DIF)。我们引入一种全新的表示学习机制,利用随机初始化的神经网络将原始数据映射至随机表示集合中,随后在该表示空间中施加随机轴对齐的切割操作,实现数据划分。该表示机制在原始数据空间中赋予了高度自由的数据划分能力(等价于对不同尺寸子空间进行非线性划分),从而在随机表示与基于随机划分的隔离机制之间建立起独特的协同效应。大量实验结果表明,所提出的模型在表格数据、图数据和时间序列数据等多种类型的数据集上,显著优于当前最先进的基于隔离的检测方法以及深度异常检测模型,同时保留了iForest原有的良好可扩展性,展现出优异的综合性能。