
要約
ビデオにおける異常検出のための効率的な手法を提案します。最近の畳み込みニューラルネットワーク(Convolutional Neural Networks: CNN)の応用は、特に画像において物体検出や認識に畳み込み層が有望であることを示しています。しかし、CNNは教師あり学習であり、ラベルが必要です。本研究では、混雑したシーンを含むビデオでの異常検出向けに空間時間アーキテクチャを提案します。当該アーキテクチャには、空間特徴表現とその時間的変化を学習するための2つの主要な構成要素が含まれています。Avenue、Subway、UCSDベンチマークでの実験結果により、当手法の検出精度が既存の最先端手法と同等であり、最大140 fpsという高速処理が可能であることが確認されました。