
비디오 이상 탐지(Video anomaly detection)는 비디오 내에서 예상되는 행동과 일치하지 않는 사건을 찾아내는 것을 목표로 한다. 기존의 주요 방법들은 주로 스크립트 재구성 또는 미래 프레임 예측 오차를 통해 이상을 탐지한다. 그러나 이러한 오차는 현재 스크립트의 국소적 맥락에 매우 의존적이며, 정상적인 행동에 대한 이해가 부족하다는 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 국소적 맥락뿐만 아니라 훈련 데이터로부터 얻은 정상성에 대한 지식과 테스트 사건 간의 일관성에 기반하여 이상 사건을 탐지하는 새로운 접근법을 제안한다. 구체적으로, 맥락 복원(Context recovery)과 지식 검색(Knowledge retrieval)을 기반으로 한 새로운 이중 스트림(2-stream) 프레임워크를 제안하며, 두 스트림은 서로 보완적인 역할을 수행한다. 맥락 복원 스트림에서는 움직임 정보를 최대한 활용하여 미래 프레임을 예측할 수 있는 공간시계열 U-Net을 제안한다. 또한, 복잡한 전경 객체로 인해 발생하는 큰 복원 오차 문제를 완화하기 위해 최대 국소 오차(Maximum local error) 메커니즘을 도입한다. 지식 검색 스트림에서는 시아메스 네트워크(Siamese network)와 상호 차이 손실(mutual difference loss)을 활용해 해시 함수를 개선한 개선된 학습 가능한 국지 민감 해싱(learnable locality-sensitive hashing)을 제안한다. 정상성에 대한 지식은 해시 테이블에 인코딩되어 저장되며, 테스트 사건과 지식 표현 간의 거리가 이상 발생 확률을 나타내는 지표로 사용된다. 마지막으로, 두 스트림에서 도출된 이상 점수를 융합하여 이상 사건을 탐지한다. 광범위한 실험을 통해 두 스트림의 효과성과 상호 보완성이 입증되었으며, 제안하는 이중 스트림 프레임워크는 네 가지 데이터셋에서 최고 수준의 성능을 달성하였다.