MIX: 혼합형 데이터에서 군집형 및 산재형 이상치를 동시에 탐지하기 위한 공동 학습 프레임워크
실생활에서는 혼합형 데이터가 흔히 존재하지만, 이러한 데이터에 적합한 이상치 탐지 방법은 매우 제한적이다. 기존의 일부 방법들은 특성 변환을 통해 혼합형 데이터를 처리하나, 변환 과정에서 발생하는 정보 손실과 노이즈로 인해 성능이 저하된다. 다른 접근 방식은 수치형 및 범주형 특성에서 이상치성을 별도로 평가한다. 그러나 이러한 방법들은 서로 다른 특성 공간에서 데이터 객체의 행동을 충분히 고려하지 못해 종종 최적의 결과를 도출하지 못한다. 이상치의 형태 측면에서 실세계 데이터에는 군집형 이상치와 산재형 이상치가 모두 포함되어 있으나, 많은 이상치 탐지기들은 자체적인 이상치 정의에 의해 이 둘을 동시에 탐지하는 데 한계를 가진다. 이러한 문제를 해결하기 위해, 비지도 학습 기반의 이상치 탐지 방법 MIX가 제안된다. MIX는 수치형과 범주형 특성 공간에서의 이상치 평가 간의 지속적인 소통과 상호보완을 가능하게 하는 공동 학습 프레임워크를 구축한다. 구체적으로, MIX는 수치형 공간과 범주형 공간에서 이상치 점수를 반복적으로 계산하며, 각 평가 단계가 다른 특성 공간으로부터 제공되는 사전 지식을 통해 반복적이고 협업적으로 향상된다. 군집형 이상치와 산재형 이상치 모두를 탐지할 수 있도록, 이상치 점수 산정 과정은 정상 모델에서의 편차를 기반으로 이상치의 본질적인 특징을 평가하는 방식으로 설계된다. 실험을 통해 MIX가 12개의 실세계 데이터셋에서 8개의 최신 이상치 탐지 기법보다 뛰어난 성능을 보였으며, 우수한 확장성도 입증하였다.