
要約
動画異常検出(Video Anomaly Detection: VAD)は、動画データ内における異常イベントを自動的に検出する問題に取り組む。現在のVADシステムが主に扱っているデータモダリティは、モノクロまたはRGB画像である。一方で、深度画像は多くの他のコンピュータビジョン研究分野において広く用いられており、低コストの深度カメラハードウェアの普及も進んでいるにもかかわらず、VADにおける深度データの活用は依然としてほとんど研究されていない。本研究では、既存のオートエンコーダーに基づく手法を深度動画に適用する効果を評価し、深度データの利点を損失関数への統合によって活かす手法を提案する。訓練は正常な動画シーケンスのみを用いて教師なしで行い、追加のアノテーションは不要である。また、深度情報から前景マスクという補助的なシーン解析情報が容易に抽出できることを示し、大規模な公開データセットを用いた評価を通じて、その有益性が異常検出性能の向上に寄与することを実証する。本研究では、このデータセットに対して初めて結果を提示する。