
要約
動画異常検出とは、予期される行動から逸脱するイベントの識別を指す。訓練データに異常サンプルがほとんど存在しないため、動画異常検出は極めて困難な課題である。従来の手法はほとんどが再構成または未来フレーム予測の枠組みに従っている。しかし、これらの手法はサンプルの外観情報と運動情報の間に存在する一貫性を無視しており、これが異常検出性能の向上を制限している。監視映像における異常は、動きのある前景にのみ発生するため、背景情報を除いた動画フレームシーケンスと光流(optical flow)が示す意味情報は、異常検出において極めて一貫性が高く、重要である。この考えに基づき、本研究では「外観・運動意味表現一貫性(Appearance-Motion Semantics Representation Consistency: AMSRC)」と呼ばれるフレームワークを提案する。本手法は、正常データの外観と運動の意味表現の一貫性を利用して異常検出を行う。まず、正常サンプルの外観情報と運動情報をそれぞれ符号化する二本のストリームエンコーダを設計し、外観と運動情報の特徴表現間の意味の一貫性を強化するための制約を導入する。これにより、外観と運動の特徴表現の一貫性が低い異常サンプルを効果的に識別できる。さらに、異常サンプルの外観と運動特徴の低一貫性は、再構成誤差が大きくなる予測フレームの生成を促進し、異常の検出を容易にする。実験結果から、提案手法の有効性が確認された。