8일 전

MIST: 비디오 이상 탐지를 위한 다중 인스턴스 자기 훈련 프레임워크

Jia-Chang Feng, Fa-Ting Hong, Wei-Shi Zheng
MIST: 비디오 이상 탐지를 위한 다중 인스턴스 자기 훈련 프레임워크
초록

약한 감독(video-level)을 이용한 비디오 이상 탐지(WS-VAD)는 구분 가능한 표현을 기반으로 정상 이벤트와 이상 이벤트를 구분하는 작업이다. 기존의 대부분의 연구는 비디오 표현의 부족으로 인해 한계를 지닌다. 본 연구에서는 비디오 레벨의 레이블만을 사용하여 작업에 특화된 구분 가능한 표현을 효율적으로 개선하기 위해 다중 인스턴스 자기 학습 프레임워크(MIST)를 제안한다. 특히 MIST는 1) 희소한 연속적 샘플링 전략을 적용하여 더 신뢰도 높은 클립 레벨의 가상 레이블을 생성하는 다중 인스턴스 가상 레이블 생성기, 그리고 2) 프레임 내 이상 영역에 자동으로 주목하면서 작업에 특화된 표현을 추출하는 자기 안내형 주의력 강화 특징 인코더로 구성된다. 또한, 두 구성 요소를 동시에 최적화하기 위해 자기 학습 기법을 도입하여 최종적으로 작업에 적합한 특징 인코더를 얻는다. 공개된 두 개의 데이터셋에서 실시한 광범위한 실험을 통해 제안한 방법의 유효성을 입증하였으며, 기존의 감독 학습 및 약한 감독 학습 방법들과 비교해 유사하거나 더 우수한 성능을 보였다. 특히 상하이기술대학(ShanghaiTech) 데이터셋에서 프레임 레벨 AUC 94.83%의 성과를 달성하였다.

MIST: 비디오 이상 탐지를 위한 다중 인스턴스 자기 훈련 프레임워크 | 최신 연구 논문 | HyperAI초신경