
최근 몇 년간 이소레이션 포레스트(Isolation Forest, iForest)는 다양한 벤치마크에서 뛰어난 일반화 성능과 뛰어난 확장성을 보이며, 아마도 가장 인기 있는 이상 탐지기(anomaly detector)로 부상하고 있다. 그러나 iForest는 선형적이고 축에 평행한 분할 방식을 사용하기 때문에 (i) 고차원 또는 비선형적으로 분리되지 않는 데이터 공간에서 격리하기 어려운 어려운 이상치(anomaly)를 탐지하지 못하는 문제와, (ii) 예상치 못한 낮은 이상치 점수를 인공물 영역(artefact regions)에 부여하는 심각한 알고리즘 편향(algorithmic bias)을 겪는다. 이러한 문제들은 높은 거짓 음성(false negative) 오류를 초래한다. 여러 iForest의 확장 기법이 제안되었지만, 그들 역시 본질적으로 얕은 선형적 데이터 분할 방식을 유지하고 있어 진정한 이상치를 격리하는 데 한계가 있다. 따라서 본 논문은 딥 이소레이션 포레스트(Deep Isolation Forest)를 제안한다. 우리는 원본 데이터를 무작위 표현 집합(random representation ensembles)으로 매핑하기 위해 임의로 초기화된 신경망을 활용하는 새로운 표현 방식을 도입한다. 이후 이러한 표현 공간에서 무작위로 축에 평행한 절단(random axis-parallel cuts)을 적용하여 데이터를 분할한다. 이 표현 방식은 원본 데이터 공간에서의 분할 자유도를 크게 향상시켜(다양한 크기의 하위공간에서 비선형적 분할과 동등한 효과), 무작위 표현과 무작위 분할 기반의 격리 사이에 고유한 상호작용(synergy)을 촉진한다. 광범위한 실험 결과는 제안하는 모델이 표본 데이터, 그래프 데이터, 시계열 데이터 등에서 최첨단의 이소레이션 기반 방법 및 딥 탐지기 대비 뚜렷한 성능 향상을 달성함을 보여주며, 동시에 iForest의 우수한 확장성도 유지하고 있음을 확인하였다.