외관-운동 의미 표현 일관성 기반의 비디오 이상 탐지 프레임워크

비디오 이상 탐지는 예상되는 행동과 벗어난 사건을 식별하는 것을 의미한다. 훈련 과정에서 이상 샘플이 부족하기 때문에, 비디오 이상 탐지는 매우 도전적인 과제로 남아 있다. 기존의 방법들은 거의 모두 재구성 또는 미래 프레임 예측 방식을 따르고 있다. 그러나 이러한 방법들은 샘플의 외형 정보와 운동 정보 간의 일관성을 간과하고 있어, 이상 탐지 성능에 한계를 초래한다. 이상은 감시 영상의 움직이는 전경에서만 발생하므로, 이상 탐지 시 배경 정보를 제거한 영상 프레임 시퀀스와 광류(옵티컬 플로우)가 표현하는 의미는 매우 높은 일관성을 가져야 하며, 이는 이상 탐지에 있어 핵심적인 요소가 된다. 이러한 아이디어를 바탕으로, 정상 데이터의 외형과 운동 의미 표현의 일관성을 활용하여 이상 탐지를 수행하는 프레임워크인 '외형-운동 의미 표현 일관성(Apppearance-Motion Semantics Representation Consistency, AMSRC)'을 제안한다. 먼저, 정상 샘플의 외형과 운동 정보 표현을 인코딩하기 위한 이중 스트림 인코더를 설계하고, 정상 샘플의 외형과 운동 정보 간의 특징 의미 일관성을 강화하기 위해 제약 조건을 도입한다. 이를 통해 외형과 운동 특징 표현의 일관성이 낮은 비정상 샘플을 효과적으로 식별할 수 있다. 또한, 이상 샘플의 외형과 운동 특징 표현의 일관성이 낮아지면 재구성 오차가 더 큰 예측 프레임을 생성하게 되어, 이상을 보다 쉽게 탐지할 수 있게 된다. 실험 결과는 제안된 방법의 효과성을 입증한다.