2달 전
다중 모달 융합 및 주의 메커니즘을 활용한 약간 감독된 비디오 이상 탐지
Ayush Ghadiya; Purbayan Kar; Vishal Chudasama; Pankaj Wasnik

초록
최근, 비디오 수준의 라벨만을 사용하여 폭력과 노출 등의 비정상 이벤트를 식별하는 약간 감독된 비디오 이상 탐지(Weakly Supervised Video Anomaly Detection, WS-VAD)가 현대적인 연구 방향으로 부각되고 있습니다. 그러나 이 작업은 모달리티 정보의 불균형 문제와 정상 및 비정상 특성을 일관되게 구분하는 등의 실질적인 도전 과제를 포함하고 있습니다. 본 논문에서는 이러한 도전 과제들을 해결하고, 폭력과 노출 등의 이상을 정확히 탐지하기 위한 다중 모달 WS-VAD 프레임워크를 제안합니다. 제안된 프레임워크 내에서 우리는 시각적 모달리티와 관련하여 높은 관련성이 있는 오디오-시각적 특성을 동적으로 선택하고 강화하는 새로운 융합 메커니즘인 크로스-모달 융합 어댑터(Cross-modal Fusion Adapter, CFA)를 소개합니다. 또한, 정상과 비정상 표현 간의 계층적 관계를 효과적으로 포착하여 특성 분리 정확도를 향상시키는 하이퍼볼릭 로렌츠 그래프 어텐션(Hyperbolic Lorentzian Graph Attention, HLGAtt)을 제안합니다. 광범위한 실험을 통해 제안된 모델이 폭력과 노출 탐지 벤치마크 데이터셋에서 최고 수준의 결과를 달성함을 입증하였습니다.