17일 전

AnyAnomaly: LVLM을 활용한 제로샷 커스터마이징 비디오 이상 탐지

Sunghyun Ahn, Youngwan Jo, Kijung Lee, Sein Kwon, Inpyo Hong, Sanghyun Park
AnyAnomaly: LVLM을 활용한 제로샷 커스터마이징 비디오 이상 탐지
초록

비디오 이상 탐지(VAD)는 컴퓨터 비전 분야에서 영상 분석 및 감시에 있어 핵심적인 기술입니다. 그러나 기존의 VAD 모델은 학습된 정상 패턴에 의존하기 때문에 다양한 환경에 적용하기 어려운 문제가 있습니다. 이로 인해 사용자는 새로운 환경에 맞춰 모델을 재학습하거나 별도의 AI 모델을 개발해야 하며, 이는 머신러닝 전문 지식, 고성능 하드웨어, 그리고 방대한 데이터 수집을 필요로 하여 VAD의 실용성에 한계를 초래합니다. 이러한 문제를 해결하기 위해 본 연구는 사용자 정의 텍스트를 이상 사건으로 고려하는 커스터마이저블 비디오 이상 탐지(C-VAD) 기술과 AnyAnomaly 모델을 제안합니다. C-VAD는 사용자가 정의한 텍스트 기반의 이상 사건을 탐지하여, 비디오 내 특정 사건이 포함된 프레임을 식별합니다. 우리는 대규모 비전-언어 모델의 미세 조정 없이도 맥락 인지형 시각 질문 응답 기반으로 AnyAnomaly를 효과적으로 구현하였습니다. 제안된 모델의 효과성을 검증하기 위해 C-VAD용 데이터셋을 구축하였으며, AnyAnomaly의 우수성을 입증하였습니다. 또한, VAD 벤치마크 데이터셋에서 경쟁력 있는 성능을 보였으며, UBnormal 데이터셋에서는 최신 기술 수준(SOTA)의 성능을 달성하고, 모든 데이터셋에서 일반화 능력 면에서 기존 방법들을 능가하였습니다. 본 연구의 코드는 github.com/SkiddieAhn/Paper-AnyAnomaly에서 공개되어 있습니다.

AnyAnomaly: LVLM을 활용한 제로샷 커스터마이징 비디오 이상 탐지 | 최신 연구 논문 | HyperAI초신경