AnoShift: 비지도 이상 탐지 위한 분포 이동 벤치마크

데이터 분포의 변화(distribution shift)를 분석하는 것은 현재 머신러닝(ML) 분야에서 주목받는 연구 방향이 되고 있으며, 이에 따라 ML 모델의 일반화 성능을 연구할 수 있는 적절한 시나리오를 제공하는 새로운 벤치마크들이 등장하고 있다. 기존의 벤치마크들은 주로 지도학습(supervised learning)에 초점을 맞추고 있으며, 현재까지 알려진 바에 따르면 비지도학습(unsupervised learning)을 위한 벤치마크는 존재하지 않는다. 따라서 우리는 시간에 따라 데이터 분포가 변화하는 특성을 갖춘 비지도 이상 탐지(anomaly detection) 벤치마크를 제안한다. 이 벤치마크는 네트워크 침입 탐지용 트래픽 데이터셋인 Kyoto-2006+를 기반으로 구축되었으며, 입력 분포의 변화를 유도하는 조건을 충족한다. 이 데이터셋은 장기간(10년에 걸쳐)의 데이터를 포함하고 있으며, 사용자 행동 패턴의 변화나 소프트웨어 업데이트 등 자연스러운 시간적 변화가 존재한다. 먼저, 각 특성별 기본 분석, t-SNE, 그리고 최적 운송(Optimal Transport) 기법을 활용하여 데이터의 비정상성(non-stationarity)을 강조한다. 이후, IID(독립적이고 동일하게 분포된), NEAR(근접), FAR(원거리)로 나누는 테스트 분할 전략을 제안하는 AnoShift 프로토콜을 도입한다. 다양한 모델(전통적인 방법부터 딥러닝까지)을 대상으로 시간에 따른 성능 저하를 검증한 결과, 데이터 분포의 변화가 모델 성능에 부정적인 영향을 미침을 확인하였다. 마지막으로, 분포 변화 문제를 인지하고 이를 적절히 해결할 경우, 독립적이고 동일하게 분포된 데이터를 가정하는 기존 학습 방식보다 성능이 향상됨을 보였다(평균적으로 본 연구의 접근법은 최대 3%의 성능 향상을 기록). 데이터셋과 코드는 https://github.com/bit-ml/AnoShift/ 에 공개되어 있다.