要約
スマートシティにおいて、暴力イベント検出は都市の安全を確保するために極めて重要である。これまでの研究では、2次元畳み込みニューラルネットワーク(2D-CNN)を用いて各フレームから空間的特徴を抽出し、その後、時系列特徴の学習に再帰型ニューラルネットワーク(RNN)の一種を適用する手法が多数検討されてきた。一方で、トランスフォーマー(Transformer)ネットワークは、多くの分野で優れた成果を上げている。しかし、トランスフォーマーの課題として、良好な性能を得るためには大規模なデータセットが必要である点が挙げられる。本研究では、事前学習済みの2D-CNNを入力データの埋め込み層として用いることで、データ効率性を高めた動画用トランスフォーマー(Data-efficient Video Transformer, DeVTr)を提案する。このモデルは、リアルな暴力イベントデータセット(Real-life Violence Dataset, RLVS)上で学習・評価され、96.25%の精度を達成した。提案手法の結果を従来の手法と比較したところ、本手法が暴力イベント検出の分野において、他のすべての研究と比較して最も優れた性能を示した。