
要約
動画異常検出は、監視動画における自動モニタリングの要請が高まる中で、大きな注目を集めている。特に、訓練データセットの正常なフレームから学習した後、テストデータセットにおける異常イベントを含むフレームを予測するアプローチは、異常検出の最も研究されている手法の一つである。しかし、多くの予測ネットワークは、事前学習済みの光流(optical flow)ネットワークを用いるため計算コストが高く、あるいは異常を含むフレームでさえも正確に予測できるほど強力な生成能力を持つため、異常を検出できないという課題を抱えている。これらの課題に対処するため、本研究では、正常なフレームキューブ内に不規則なパッチキューブを生成するための空間的回転変換(Spatial Rotation Transformation: SRT)と時系列混合変換(Temporal Mixing Transformation: TMT)を提案する。これらの変換により、正常な特徴の学習が強化される。さらに、提案するパッチ変換は訓練フェーズでのみ使用されるため、推論時には高速な異常フレーム検出が可能となる。本モデルは3つの異常検出ベンチマークで評価され、高い精度を達成するとともに、処理速度において従来のすべての手法を上回った。