스트리밍 데이터를 위한 비지도 실시간 이상 탐지
스트리밍 및 시계열 데이터의 가용성이 급격히 증가하고 있다. 주로 연결된 실시간 데이터 소스의 확산에 힘입어, 이러한 데이터는 기술적 도전 과제와 동시에 새로운 기회를 제시하고 있다. 스트리밍 분석의 핵심 기능 중 하나는 각 스트림을 비지도 방식으로 모델링하고 실시간으로 비정상적, 이상 행동을 탐지하는 것이다. 초기 이상 탐지의 가치는 크지만, 실제로 신뢰성 있게 실행하는 것은 여전히 어려운 과제이다. 응용 분야의 제약 조건은 데이터를 배치 단위가 아닌 실시간으로 처리해야 한다는 요구를 내포하고 있다. 스트리밍 데이터는 본질적으로 개념 드리프트(concept drift)를 나타내므로, 지속적인 학습이 가능한 알고리즘이 선호된다. 게다가 실제 환경에서는 수많은 독립적인 스트림이 존재하므로, 이상 탐지 기법은 완전히 자동화되어야 한다. 본 논문에서는 이러한 제약 조건을 충족하는 새로운 이상 탐지 알고리즘을 제안한다. 제안된 기법은 계층적 시간 메모리(Hierarchical Temporal Memory, HTM)라고 불리는 온라인 시퀀스 메모리 알고리즘을 기반으로 한다. 또한, 실제 세계의 데이터 스트림과 레이블링된 이상 사건을 포함하는 Numenta 이상 탐지 벤치마크(Numenta Anomaly Benchmark, NAB)를 사용한 실험 결과를 제시한다. NAB는 세계 최초의 실시간 스트리밍 데이터에 대한 이상 탐지 알고리즘 테스트를 위한 통제된 오픈소스 환경을 제공한다. 본 연구에서는 이 벤치마크를 기반으로 다양한 알고리즘의 성능을 평가하고 분석하며, 스트리밍 분석이라는 새롭게 부상하고 있는 분야가 직면한 미래적 과제에 대해 논의한다.