
감시 비디오는 다양한 현실적인 이상 징후를 포착할 수 있습니다. 본 논문에서는 정상 비디오와 이상 비디오를 모두 활용하여 이상 징후를 학습하는 방법을 제안합니다. 훈련 비디오의 이상 구간이나 클립을 주석화하는 것이 매우 시간이 소요되는 작업을 피하기 위해, 우리는 약한 라벨링이 된 훈련 비디오(즉, 훈련 라벨은 클립 단위가 아닌 비디오 단위로 부여됨)를 활용하여 깊은 다중 인스턴스 순위 프레임워크를 통해 이상 징후를 학습하는 방법을 제안합니다. 우리의 접근 방식에서, 정상 비디오와 이상 비디오는 다중 인스턴스 학습(MIL)에서 가방(bag)으로, 비디오 세그먼트는 인스턴스(instance)로 간주되며, 이 과정에서 자동으로 고도의 이상 점수를 예측하는 깊은 이상 순위 모델을 학습합니다. 또한, 순위 손실 함수에 희소성(sparse)과 시간적 부드러움(temporal smoothness) 제약 조건을 도입하여 훈련 중에 이상 징후의 위치를 더 잘 파악할 수 있도록 합니다.우리는 128시간 분량의 새로운 대규모 감시 비디오 데이터셋을 소개합니다. 이 데이터셋은 1900개의 긴 미편집 실제 감시 비디오로 구성되어 있으며, 싸움(fighting), 도로 사고(road accident), 절도(burglary), 강도(robbery) 등 13가지 현실적인 이상 징후 및 정상 활동이 포함되어 있습니다. 이 데이터셋은 두 가지 작업에 사용될 수 있습니다. 첫째, 모든 이상 징후를 하나의 그룹으로, 모든 정상 활동을 다른 그룹으로 구분하여 일반적인 이상 검출 작업입니다. 둘째, 13가지 각각의 이상 활동을 인식하는 작업입니다. 실험 결과는 우리의 MIL 방법론이 기존 최신 연구 접근법들과 비교하여 상당한 개선 효과를 보였음을 보여줍니다. 우리는 최근의 여러 딥러닝 베이스라인들의 이상 활동 인식 성능 결과도 제공합니다. 이러한 베이스라인들의 낮은 인식 성능은 우리의 데이터셋이 매우 어려운 문제임을 나타내며, 미래 연구에 더 많은 기회를 열어줍니다. 데이터셋은 다음 링크에서 이용 가능합니다: https://webpages.uncc.edu/cchen62/dataset.html