
要約
異常行動検出は、コンピュータビジョン分野における最も挑戦的な課題の一つである。本研究は、近年の最先端の異常行動検出手法に着想を得ており、複数インスタンス学習(Multiple Instance Learning, MIL)を用いて、動画レベルのラベル情報を提供することにより、正常および異常の両方の動画を活用して異常を学習するアプローチに着目している。しかしながら、時間的ラベル(temporal-annotations)が存在しない状況では、このようなモデルは異常検出時に誤検出(誤報)を引き起こしやすくなる。この問題を解決するため、本論文では異常行動検出タスクを実行しつつ、誤報率を最小化することを目的とする。近年の3D深層ニューラルネットワークが動画行動認識タスクにおいて著しい進展を遂げていることと、誤報の低減が重要な課題であるという背景から、本研究では3D ResNetを活用した新たな手法を提案する。これにより、動画から空間時間的特徴を効果的に抽出することが可能となる。その後、得られた特徴量と深層的な複数インスタンス学習、および新たに提案するランク損失(ranking loss)を組み合わせることで、モデルは動画セグメントレベルでの異常度スコアを予測する能力を学習する。その結果、本研究で提案する「3D深層複数インスタンス学習とResNetを組み合わせた手法(MILR)」および新しく提案するランク損失関数は、UCF-Crimeベンチマークデータセットにおいて、他の最先端手法と比較して最も優れた性能を達成した。本手法の有効性は、UCF-Crimeデータセットを用いた実験により明確に示された。