16일 전

비지도 이상 탐지 기법과 범주형 인코딩의 감사 데이터에 대한 영향

Ajay Chawda, Stefanie Grimm, Marius Kloft
비지도 이상 탐지 기법과 범주형 인코딩의 감사 데이터에 대한 영향
초록

본 논문에서는 자동차 수리 보험 청구에 대한 사기 청구 데이터를 포함하는 Vehicle Claims 데이터셋을 소개한다. 이 데이터는 일기장과 네트워크 침입 데이터도 포함하는 더 광범위한 감사 데이터(Auditing data) 카테고리에 속한다. 보험 청구 데이터는 네트워크 침입 데이터와 같은 다른 감사 데이터와 달리 고도의 범주형 속성(attribute)을 지닌다는 점에서 특별히 구분된다. 이는 이상 탐지(anomaly detection) 분야에서 흔히 발생하는 기준 데이터셋 부족 문제를 해결하기 위한 것이다. 일반적으로 데이터셋은 기밀성이 높아 공개가 어려우며, 공개된 표형 데이터셋(또는 tabular datasets)은 관련성 있고 충분한 범주형 속성을 포함하지 못하고 있다. 이러한 문제를 해결하기 위해 대규모 데이터셋을 구축하였으며, 이를 Vehicle Claims (VC) 데이터셋이라 명명하였다. 본 데이터셋은 얕은 학습(shallow learning) 및 깊은 학습(deep learning) 방법에 대해 평가되었다. 특히 범주형 속성의 도입으로 인해 대규모 데이터셋에서 이러한 속성을 인코딩하는 도전 과제가 발생하였다. 고카디널리티(high cardinality) 데이터에 대해 원핫 인코딩(One Hot encoding)을 사용할 경우 차원의 저주(curse of dimensionality) 문제가 발생하므로, GEL 인코딩과 임베딩 레이어(embedding layer)를 활용하여 범주형 속성을 표현하는 방법을 실험하였다. 본 연구는 레이블(Label), 원핫 인코딩, GEL 인코딩, 임베딩 레이어를 활용한 다양한 접근법—경쟁적 학습(competitive learning), 재구성 오차(reconstruction-error), 밀도 추정(density estimation), 대조 학습(contrastive learning)—을 비교 분석하였다.

비지도 이상 탐지 기법과 범주형 인코딩의 감사 데이터에 대한 영향 | 최신 연구 논문 | HyperAI초신경