17日前
マルチモーダル運動条件付きディフュージョンモデルを用いた骨格ベース動画異常検出
Alessandro Flaborea, Luca Collorone, Guido D', Amely, Stefano D', Arrigo, Bardh Prenkaj, Fabio Galasso

要約
異常は稀であり、そのため異常検出はしばしば一クラス分類(One-Class Classification, OCC)として定式化される。すなわち、正常なデータのみでモデルを学習する。先進的なOCC手法は、正常な動きの潜在表現を限定された空間内に制約し、その外側にあるものを異常と判定する。このアプローチは、異常のオープンセット性(openset'ness)を一定程度満足させる。しかし、正常性も同様にオープンセット性を持つという点を、既存の手法は無視している。なぜなら、人間は同じ動作を複数の異なる方法で実行できるためである。本研究では、正常性と異常性の両方が多様なモードを持つことを仮定する新しい生成モデルを提案する。我々は骨格表現(skeletal representations)を用い、最先端の拡散確率モデル(diffusion probabilistic models)を活用して、多様な未来の人間ポーズを生成する。さらに、人物の過去の運動を条件として新たな制約を導入し、拡散プロセスの優れたモードカバレッジ能力を活かして、異なるが現実的な未来の運動を生成する。生成された未来のモードを統計的に集約し、実際の未来の動きと整合性が取れない場合に異常と検出する。本モデルは、UBnormal、HR-UBnormal、HR-STC、HR-Avenueの4つの標準ベンチマークで検証され、広範な実験により、既存の最先端手法を上回る性能を達成した。