약한 감독 하의 비디오 이상 탐지: 강건한 시계열 특징 크기 학습을 통한 접근

약한 감독 신호를 가진 비디오 수준 레이블을 이용한 이상 탐지는 일반적으로 다중 인스턴스 학습(MIL) 문제로 공식화되며, 이는 각 비디오를 비디오 스니펫들의 '가방(bag)'으로 표현하고, 이상 사건을 포함하는 스니펫을 식별하는 것을 목표로 한다. 현재의 방법들은 효과적인 탐지 성능을 보여주지만, 이상 비디오 내 희귀한 이상 스니펫(즉, 긍정 인스턴스)을 인식하는 데 있어, 특히 정상 사건과 거의 유사한 미세한 이상 현상의 경우, 지배적인 부정 인스턴스에 의해 크게 편향되는 문제가 있다. 이 문제는 많은 기존 방법들이 중요한 시간적 종속성을 무시하기 때문에 더욱 악화된다. 이러한 문제를 해결하기 위해, 우리는 이론적으로 타당하며 새로운 접근법인 강건한 시간적 특징 크기 학습(Robust Temporal Feature Magnitude learning, RTFM)을 제안한다. RTFM은 긍정 인스턴스를 효과적으로 인식할 수 있도록 특징 크기 학습 함수를 훈련함으로써, 이상 비디오로부터의 부정 인스턴스에 대한 MIL 접근법의 강건성을 크게 향상시킨다. 또한 RTFM은 확장된 컨볼루션(dilated convolutions)과 자기 주목(self-attention) 메커니즘을 활용하여 장거리 및 단거리 시간적 종속성을 효과적으로 포착하여 특징 크기를 더 정확하게 학습한다. 광범위한 실험 결과에 따르면, RTFM 기반의 MIL 모델은 (i) 상하이기술대(ShanghaiTech), UCF-Crime, XD-Violence, UCSD-Peds 네 가지 벤치마크 데이터셋에서 여러 최신 기법들을 크게 앞서며 우수한 성능을 보였으며, (ii) 미세한 이상 현상에 대한 구분 능력과 샘플 효율성이 크게 향상되었다. 코드는 https://github.com/tianyu0207/RTFM 에서 공개되어 있다.