
초록
최근 몇 년간 감시 카메라는 공공장소에 널리 배치되었으며, 이러한 광범위한 장치로 인해 일반 범죄율이 크게 감소하고 있다. 일반적으로 이러한 카메라들은 범죄 발생 후 증거와 단서를 제공하는 데 사용되지만, 범죄 행위를 실시간으로 예방하거나 중단하는 데는 거의 활용되지 않고 있다. 감시 카메라에서 생성되는 대량의 영상 데이터를 수동으로 모니터링하는 것은 시간과 인력이 매우 소모되는 작업이다. 따라서 영상 신호에서 폭력 행동을 자동으로 인식하는 것은 필수적인 과제가 되었다. 본 논문은 폭력 탐지용 기존 영상 데이터셋들을 종합적으로 정리하고, 실제 장면에서 감시 카메라로 촬영한 2,000개의 영상으로 구성된 새로운 RWF-2000 데이터베이스를 제안한다. 또한, 3D-CNN과 광류(optical flow)의 장점을 결합한 새로운 방법인 Flow Gated Network를 제시한다. 제안된 방법은 본 연구에서 제안한 데이터베이스의 테스트 세트에서 87.25%의 정확도를 달성하였다. 해당 데이터베이스와 소스 코드는 현재 공개되어 누구나 접근 가능하다.