6ヶ月前

概要

監視映像から暴力行為を自動検出することは、無人型セキュリティ監視システムやインターネット動画フィルタリングなど広範な応用が期待されるアクティビティ認識の一分野であり、特に注目すべき課題である。本研究では、背景抑制画像を入力とするストリームと、隣接フレーム間の差分を処理するストリームを用いた効率的な二重ストリーム深層学習アーキテクチャを提案する。一方のストリームは、背景を抑制したフレームを入力とし、他方のストリームは連続フレーム間の動きを捉えるための差分を処理する。我々は、静止背景を抑制し、動いている物体を強調するシンプルかつ高速な入力前処理手法を採用しており、これによりフレーム間の動きを効果的に捉えることが可能となる。暴力行動は主に身体の運動によって特徴付けられるため、このような入力により識別力の高い特徴量が得られる。本研究で用いるSepConvLSTMは、ConvLSTMの各ゲートにおける畳み込み演算を深度方向分離畳み込み（depthwise separable convolution）に置き換えることで構成されており、大幅に少ないパラメータ数で、堅牢な長距離時空間特徴を生成することが可能となる。また、二つのストリームの出力特徴マップを統合するための3種類の融合手法を検証した。提案手法の評価は、3つの標準的な公開データセットを用いて実施した。その結果、より大規模で困難なRWF-2000データセットにおいて、従来の最先端手法よりも2%以上の精度向上を達成した一方で、小規模なデータセットでは最先端の性能と同等の結果を示した。実験の結果から、本研究で提案するモデルは、計算効率と検出精度の両面において優れた性能を発揮することが明らかとなった。

ソースPDF