
要約
動画における異常検出は、重要な研究分野であり、実用応用においても大きな課題である。大規模なアノマリイベントのラベル付きデータが入手できないため、既存の動画異常検出(VAD)手法の多くは、正常なサンプルの分布を学習し、その分布から著しく逸脱したサンプルを異常と判定するアプローチに注力している。正常な動きや外観の分布を効果的に学習するため、多くの場合、前景オブジェクトや行動情報を抽出する補助ネットワークが導入される。これらの高レベルな意味特徴は、背景からのノイズを効果的に除去し、検出モデルへの影響を低減する。しかし、これらの追加の意味モデルの性能が、VAD手法全体の性能に大きな影響を与える。こうした課題を踏まえ、拡散モデル(DM)の優れた生成能力およびノイズ耐性に着目し、本研究では、動画フレームの特徴を予測する新たなDMベースの異常検出手法を提案する。本手法の目的は、高レベルな意味特徴抽出モデルを一切用いずに、正常サンプルの分布を学習することにある。そのため、特徴の動き学習に特化したモジュールと、特徴の外観学習に特化したモジュールの2つのノイズ除去拡散暗黙モジュールを構築した。本研究においては、動画異常検出にフレーム特徴を予測するという点で、初めてDMベースのアプローチを提案したと認識している。拡散モデルの強力な表現能力により、本手法は従来の非DMベースの特徴予測に基づくVAD手法よりも、より正確に正常な特徴を予測できる。広範な実験結果から、提案手法が最先端の競合手法を顕著に上回ることが示された。