
비정상 행동 탐지는 컴퓨터 비전 분야에서 가장 도전적인 과제 중 하나이다. 본 연구는 최근의 최신 기술인 비정상 행동 탐지 기법에 기반하고 있으며, 이 기법은 다중 인스턴스 학습(Multiple Instance Learning, MIL)을 활용하여 비정상 및 정상 영상 데이터를 동시에 사용해 비정상 행동을 학습하는 방식을 채택하고 있다. 이때 영상 수준의 정보를 제공함으로써 모델은 비정상 행동을 더 효과적으로 학습할 수 있다. 그러나 시간적 레이블(시계열 레이블)이 부재할 경우, 이러한 모델은 비정상 행동 탐지 시 거짓 경보(false alarm)를 발생시키기 쉬운 문제가 있다. 이러한 문제를 해결하기 위해 본 논문에서는 비정상 행동 탐지 작업 수행 시 거짓 경보율을 최소화하는 것을 주요 목표로 한다. 이러한 거짓 경보 완화 기법과 최근 영상 행동 인식 작업에서 3D 심층 신경망의 발전을 종합적으로 고려하여, 본 연구에서는 3D ResNet을 활용하여 영상에서 공간-시간 특징을 효과적으로 추출하는 방법을 제안한다. 이후, 추출된 특징을 바탕으로 깊이 있는 다중 인스턴스 학습과 함께 제안된 랭킹 손실(Ranking Loss) 함수를 적용하여, 모델은 영상 세그먼트 단위에서 비정상성 점수를 예측하도록 학습한다. 결과적으로, 제안된 3D ResNet 기반 다중 인스턴스 학습 기법(MILR)과 새로운 랭킹 손실 함수를 결합한 본 방법은 UCF-Crime 벤치마크 데이터셋에서 기존의 최신 기법들과 비교하여 가장 뛰어난 성능을 달성하였다. 본 연구에서 제안한 방법의 효과성은 UCF-Crime 데이터셋을 통해 실험적으로 입증되었다.