배경에 종속되지 않는 프레임워크와 적대적 훈련을 활용한 비디오에서의 이상 이벤트 감지

비디오에서 비정상 이벤트 검출은 최근 몇 년 동안 많은 주목을 받은 복잡한 컴퓨터 비전 문제입니다. 이 작업의 복잡성은 비정상 이벤트의 일반적으로 채택된 정의, 즉 주변 맥락에 따라 달라지는 드물게 발생하는 이벤트에서 기인합니다. 비정상 이벤트 검출을 이상치 검출로 표준화된 공식에 따라 접근하면서, 우리는 오직 정상 이벤트만 포함된 훈련 비디오로부터 학습할 수 있는 배경 무관 프레임워크를 제안합니다. 우리의 프레임워크는 객체 감지기, 외관 및 운동 오토인코더 집합, 그리고 분류기 집합으로 구성됩니다. 우리의 프레임워크는 오직 객체 감지를 바탕으로 하므로, 정상 이벤트가 모든 장면에서 동일하게 정의되고 유일한 변동 요인이 배경이라는 조건 하에 다양한 장면에 적용될 수 있습니다.훈련 중 비정상 데이터 부족 문제를 해결하기 위해, 우리는 오토인코더에 대한 적대적 학습 전략을 제안합니다. 우리는 도메인 외의 장면 무관 가짜 비정상 예제 집합을 생성하여, 그 예제들이 오토인코더에 의해 올바르게 재구성된 후 가짜 비정상 예제들에 대해 경사 상승(gradient ascent)을 적용합니다. 또한, 우리는 이러한 가짜 비정상 예제들을 외관 기반 및 운동 기반 이진 분류기를 훈련시키는 데 사용하여, 정상과 비정상 잠재 특징 및 재구성을 구별하도록 합니다. 우리는 네 가지 벤치마크 데이터 세트와 다양한 평가 지표를 사용하여 우리의 프레임워크를 최신 방법들과 비교하였습니다. 경험적 결과는 기존 방법들보다 모든 데이터 세트에서 우수한 성능을 보여주고 있음을 나타냅니다.또한, 문헌에서 두 개의 대규모 비정상 이벤트 검출 데이터 세트, 즉 ShanghaiTech와 Subway에 대해 지역 기반 및 추적 기반 주석(annotation)을 제공합니다.