要約
既存のモデルベース異常検出手法は、通常のインスタンスのプロファイルを構築し、そのプロファイルに適合しないインスタンスを異常と識別する。本論文では、通常の点をプロファイル化するのではなく、異常を明示的に分離する根本的に異なるモデルベース手法を提案する。現行の文献において、この「分離(isolation)」という概念が検討されたことはないと思われる。分離の利用により、提案手法であるiForestは、既存手法では実現が困難なまでのサブサンプリングを活用可能となり、定数項が小さく、メモリ使用量も少ない線形時間計算量を達成するアルゴリズムを構築している。実験評価の結果、iForestは、AUCおよび処理時間という観点で、近線形時間計算量の距離ベース手法であるORCA、LOF、およびランダムフォレストと比較しても優れた性能を示し、特に大規模データセットにおいて顕著な優位性を発揮する。また、無関係な属性が多数存在する高次元問題や、訓練データに異常が含まれない状況においても、iForestは良好な性能を発揮する。