9일 전

의료 시간 시리즈 데이터로부터의 표현 학습을 통한 비지도 이상 탐지

{Margarida Silveira, João Pereira}
초록

의료 분야에서 생성되는 시계열 데이터의 양은 매우 빠르게 증가하고 있으며, 이러한 데이터를 분석하고 이상 현상을 탐지하며 의미 있는 통찰을 제공할 수 있는 방법에 대한 수요도 급격히 증가하고 있다. 그러나 가용한 데이터의 대부분은 레이블이 없기 때문에, 이와 같은 환경에서 이상 탐지 문제는 연구자들과 실무자들에게 큰 도전 과제로 남아 있다. 최근에는 깊이 있는 생성 모델을 활용한 비지도 표현 학습이 레이블이 많은 대규모 데이터셋 없이도 데이터의 표현을 학습하는 데 적용되고 있다. 이러한 성공 사례에 영감을 받아, 우리는 시계열 데이터에서 비지도 이상 탐지를 위한 프레임워크를 제안한다. 본 연구에서 제안하는 방법은 표현 학습과 이상 탐지 모두를 완전히 비지도 방식으로 수행한다. 또한, 학습 데이터 내부에 이상 데이터가 포함되어 있어도 문제없이 작동한다. 먼저, 변분 순환 오토인코더(Variational Recurrent Autoencoder)를 사용하여 시계열 데이터의 표현을 학습한다. 이후 이러한 표현 기반으로 클러스터링과 워싱턴 거리(Wasserstein distance)를 활용하여 이상 시계열을 탐지한다. 공개된 ECG5000 심전도 데이터셋을 대상으로 수행한 실험 결과, 제안하는 방법이 완전히 비지도 방식으로 이상 심장 박동을 탐지할 수 있음을 입증하였으며, 동시에 구조화되고 표현력이 풍부한 데이터 표현을 제공함을 확인하였다. 더불어, 본 방법은 이 데이터셋에서 기존의 지도학습 및 비지도학습 방법들보다 우수한 성능을 보였다.