8일 전

학습 프롬프트 강화된 컨텍스트 특징을 활용한 약한 감독 영상 이상 탐지

Yujiang Pu, Xiaoyu Wu, Lulu Yang, Shengjin Wang
학습 프롬프트 강화된 컨텍스트 특징을 활용한 약한 감독 영상 이상 탐지
초록

약한 감독 하에서의 비디오 이상 탐지(Video Anomaly Detection)는 훈련 중 프레임 단위의 레이블이 부족하기 때문에 큰 도전 과제를 안고 있다. 기존 연구들은 시간적 관계를 모델링하고 구별 가능한 특징을 학습하기 위해 다중 예제 학습(Multiple Instance Learning, MIL) 기반 분류 손실과 그래프 컨볼루션 네트워크, 자기 주의 메커니즘(self-attention mechanism)을 활용해 왔다. 그러나 이러한 방법들은 일반적으로 로컬 및 글로벌 종속성을 별도로 캡처하기 위해 다중 브랜치 아키텍처를 사용하여 파라미터 수와 계산 비용이 증가하는 문제가 있다. 더불어, MIL 기반 손실의 이진 제약 조건은 클래스 간의 거시적 분리성만 제공할 뿐, 이상 클래스 내부의 미세한 구별 능력을 간과한다. 이를 해결하기 위해 본 논문은 효율적인 컨텍스트 모델링과 향상된 의미적 구별 능력을 중시하는 약한 감독 기반 이상 탐지 프레임워크를 제안한다. 우리는 유사도 행렬을 재사용하고 적응형 융합을 구현함으로써 포괄적인 맥락 정보를 포착하는 시간적 컨텍스트 집약(Temporal Context Aggregation, TCA) 모듈을 제안한다. 또한, 지식 기반 프롬프트(knowledge-based prompts)를 활용하여 의미적 사전 지식을 통합함으로써 컨텍스트 특징의 구별 능력을 강화하고 이상 하위 클래스 간의 분리성을 보장하는 프롬프트 강화 학습(Prompt-Enhanced Learning, PEL) 모듈을 제안한다. 광범위한 실험을 통해 제안 방법의 구성 요소들이 효과적임을 검증하였으며, UCF-Crime, XD-Violence, 상하이 기술 대학(ShanghaiTech) 데이터셋 등 세 가지 도전적인 벤치마크에서 경쟁력 있는 성능을 달성하면서도 파라미터 수와 계산 부담을 감소시켰다. 특히, 일부 이상 하위 클래스의 탐지 정확도가 크게 향상됨을 확인하여 본 방법의 실용적 가치와 효과성을 입증하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/yujiangpu20/PEL4VAD.

학습 프롬프트 강화된 컨텍스트 특징을 활용한 약한 감독 영상 이상 탐지 | 최신 연구 논문 | HyperAI초신경