要約
現代の監視が常時行われる世界において、監視カメラは公共空間における犯罪や暴力を抑止する上で重要な役割を果たしており、その主な効果は犯罪の抑止(抑止力)としての機能である。これにより、より効果的な監視を実現するためには、リアルタイムで犯罪を自動検出できるツールの開発が急務となっている。本論文では、監視映像における暴力犯罪を高精度かつ効率的に検出するための新しい深層学習アーキテクチャを提案する。本手法は、暴力を検出するために最も本質的な情報として、人体の姿勢とその相互作用に着目している。具体的には、人体ポーズ抽出器(human pose extractors)と変化検出器(change detectors)を入力として用い、それらを新規に設計した結合手法により統合する。この手法の特徴は、乗算ではなく加算を用いることにより、入力のいずれかがゼロ値の信号を出力しても情報の伝達を保証できる点にあり、従来の結合手法と比較して優れた性能を発揮する。さらに、空間的および時間的情報を同時に捉えるために、標準的なLSTMの代替として畳み込み型LSTM(ConvLSTM)を採用している。複数のベンチマークデータセットを用いた実験結果から、本提案手法が優れた効果と効率性を示し、従来の最先端手法と同等以上の精度を達成しつつ、トレーニング可能なパラメータ数を大幅に削減していることが明らかになった。本研究で提案するアーキテクチャを再現可能な形で公開しており、コードは以下のURLから入手可能である:https://github.com/atmguille/Violence-Detection-With-Human-Skeletons