약한 감독 하에 시공간 프롬프트를 이용한 비디오 이상 징후 검출 및 위치 결정

현재 약간 감독된 비디오 이상 탐지(Weakly Supervised Video Anomaly Detection, WSVAD) 작업은 전체 해상도 비디오 프레임에서만 거친 비디오 레벨 주석을 사용하여 프레임 레벨의 이상 이벤트를 탐지하는 것을 목표로 합니다. 기존 연구들은 일반적으로 전체 해상도 비디오 프레임에서 전역 특징을 추출하고, 시간 차원에서의 이상을 탐지하기 위해 프레임 레벨 분류기를 훈련시키는 방식을 취합니다. 그러나 대부분의 이상 이벤트는 전체 비디오 프레임이 아닌 국소적인 공간 영역에서 발생하는 경향이 있어, 이는 기존의 프레임 레벨 특징 기반 연구들이 배경 정보에 의해 오도될 가능성이 있으며, 탐지된 이상에 대한 해석이 부족함을 시사합니다. 이러한 딜레마를 해결하기 위해 본 논문에서는 사전 학습된 시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 하는 새로운 방법인 STPrompt를 소개합니다. 제안된 방법은 하나의 스트림이 시간 차원에 초점을 맞추고 다른 스트림이 주로 공간 차원에 초점을 맞추는 두 스트림 네트워크 구조를 사용합니다. 사전 학습된 VLMs에서 얻은 지식과 원시 비디오에서 자연스러운 운동 사전지를 활용하여, 우리의 모델은 비디오의 시공간 영역(예: 개별 프레임의 패치)과 일치하는 프롬프트 임베딩(prompt embeddings)을 학습하여 특정 국소적 이상 영역을 식별할 수 있도록 설계되었습니다. 이를 통해 배경 정보의 영향을 줄이는同时实现了准确的视频异常检测。无需依赖详细的时空注释或辅助的对象检测/跟踪,我们的方法在三个公开基准数据集上实现了WSVADL任务的最先进性能。(最后一句翻译修正如下:)세부적인 시공간 주석이나 보조적인 객체 검출/추적 없이도, 우리 방법은 세 가지 공개 벤치마크 데이터셋에서 WSVADL 작업에 있어 최첨단 성능을 달성하였습니다.