
要約
近年、監視カメラは公共空間に広く導入されており、こうした普及した装置のおかげで一般的な犯罪発生率は著しく低下している。通常、これらのカメラは犯罪発生後に証拠や手がかりを提供するものであるが、犯罪の発生をリアルタイムで防止または中止する用途としての活用はほとんど行われていない。監視カメラから得られる大量の映像データを人手で監視することは、時間と人的リソースを非常に消費する。したがって、映像信号から暴力行動を自動的に認識することが極めて重要となっている。本論文では、暴力行為検出に用いられる既存の複数の映像データセットを要約し、実際の現場環境で監視カメラによって撮影された2,000本の動画から構成される新しいデータベース「RWF-2000」を提案する。さらに、3D-CNNと光流(optical flow)の両方の利点を活かす新規手法として「Flow Gated Network」を提示する。提案手法は、自ら提案したデータベースのテストセットにおいて87.25%の精度を達成した。本データベースおよびソースコードは現在、公開されており誰でもアクセス可能である。