클로즈 테스트 힌트를 통한 효과적인 비디오 이상 탐지: 비디오 이벤트 완성 학습을 통한 접근

미디어 콘텐츠 해석 분야에서 중요한 주제인 비디오 이상 탐지(VAD, Video Anomaly Detection)는 딥 뉴럴 네트워크(DNN)를 통해 풍부한 성과를 거두었다. 그러나 기존의 방법들은 일반적으로 재구성 또는 프레임 예측 방식을 따르며, 두 가지 주요한 한계를 겪고 있다. 첫째, 비디오 내 활동을 정밀하고 포괄적인 방식으로 국소화할 수 없다는 점이다. 둘째, 고수준의 의미 정보와 시간적 맥락 정보를 충분히 활용할 수 있는 능력이 부족하다는 점이다. 언어학 연구에서 흔히 사용되는 '공백 채우기 문제'(cloze test)의 아이디어를 영감으로 삼아, 위의 한계를 극복하기 위해 새로운 VAD 솔루션인 비디오 이벤트 완성(Video Event Completion, VEC)을 제안한다. 첫째, 정밀하고 포괄적인 비디오 활동의 경계를 달성하기 위한 새로운 파이프라인을 제안한다. 시각적 외형과 운동 정보를 상호 보완적인 신호로 활용하여 관심 영역(RoI, Region of Interest)을 정확히 탐지한다. 각 RoI로부터 정규화된 공간-시간 큐브(STC, Spatio-Temporal Cube)를 구성하여 하나의 비디오 이벤트로 정의하며, 이는 VEC의 기반 구조이자 기본 처리 단위가 된다. 둘째, DNN이 고수준 의미 정보를 효과적으로 학습할 수 있도록 '시각적 공백 채우기 문제'를 제안한다. 이를 위해 STC의 특정 패치를 제거하여 불완전한 이벤트(IE, Incomplete Event)를 생성한다. DNN은 이러한 IE로부터 누락된 패치를 추론하여 원래의 비디오 이벤트를 복원하도록 학습하게 된다. 셋째, 더 풍부한 운동 동역학 정보를 반영하기 위해 별도의 DNN을 학습하여 제거된 패치의 광학 흐름( optical flow)을 추론하도록 한다. 마지막으로, 다양한 유형의 IE와 모달리티를 활용한 두 가지 앙상블 전략을 제안하여 VAD 성능을 향상시키며, 시간적 맥락과 모달리티 정보를 최대한 활용할 수 있도록 한다. 제안한 VEC는 일반적으로 사용되는 VAD 벤치마크에서 기존 최고 수준의 방법들을 뚜렷한 격차로 상회하며, 일반적으로 AUROC 기준 1.5%~5%의 성능 향상을 보인다. 코드 및 실험 결과는 github.com/yuguangnudt/VEC_VAD에서 확인할 수 있다.