
要約
動画異常検出は、動画における異常イベントの認識を扱う分野である。視覚信号に加えて、骨格シーケンスを用いた動画異常検出のアプローチも広く研究されている。本研究では、異なる時間帯におけるセグメント間で期待される運動を学習するための包括的な骨格軌跡表現を提案する。本手法は、マルチタスク学習を用いて、連続する観測されていない時間セグメントを再構成することで、過去または未来のセグメントを外挿し、それらの間のセグメントを内挿することが可能となる。エンドツーエンドのアテンションベースのエンコーダデコーダを採用し、時間的に遮蔽された軌跡を符号化し、遮蔽されたセグメントの潜在表現を共同で学習した上で、異なる時間セグメント間の期待される運動に基づいて軌跡を再構成する。骨格軌跡に基づく動画異常検出の3つのデータセットにおける広範な実験により、本手法が最先端の性能を達成し、骨格軌跡における異常検出において優れた有効性と利点を示した。