
要約
私たちは、単一シーンの動画異常局所化に向けた新たなフレームワークを提案する。このフレームワークは、システムが判断する根拠を人間が理解できる形で提示することが可能である。まず、深層ネットワークを用いて物体およびその運動の一般的な表現を学習し、その後、これらの表現を基に、特定のシーンに特化した高次元かつ位置依存のモデルを構築する。このモデルを用いることで、同一シーンの新たな動画における異常を検出できる。特に重要な点は、本手法が説明可能であることである。高次元の外観および運動特徴は、動画のどの部分が「正常」または「異常」と分類されたかについて、人間が理解可能な理由を提供できる。標準的な動画異常検出データセット(Street Scene、CUHK Avenue、ShanghaiTech、UCSD Ped1、Ped2)を用いた実験により、従来の最先端手法に対して顕著な性能向上を示した。