現実世界における異常検出のための late fuzzy fusion を備えたマルチストリーム深層ニューラルネットワーク
動画における異常イベント検出は、別名「アウトライア検出」とも呼ばれ、機械学習が非常に効果的な分野である。未知の動画をテストする際、この手法の目的は、動画のカテゴリ(例えば、正常または異常)を識別することにある。本論文では、正常および異常動画から得られる視覚情報を活用し、深層マルチインスタンス学習(Multiple Instance Learning, MIL)分類器を訓練することで、動画の分類を実現している。既存のマルチインスタンス学習分類器は、訓練用動画に短時間の異常イベントしか含まれないと仮定しているが、これはすべての現実世界の異常に対して成り立つとは限らない。また、訓練動画内に複数回の異常が発生する可能性も排除できない。本論文は、特徴抽出段階に時間的情報を組み込むことで、異常検出性能が向上することを示している。これを実現するために、訓練動画に対して並列に2つの空間時間的深層特徴抽出器を適用した。これらの特徴量ストリームを用いて、改良されたマルチインスタンス学習に基づく分類器を訓練した。その後、ファジィ集約(fuzzy aggregation)を用いて異常スコアを統合した。さらに、火災や事故などのイベント分類において本モデルの有効性を裏付けるために、2つの軽量な深層学習分類器も用いている。提案手法の信頼性および性能を検証するため、13種類の異常カテゴリを含むUCF-Crime動画データセットを用いて広範な実験を行った。また、行動の深刻度に基づき、データセットを5つの広範なカテゴリに再構成し、提案手法の堅牢性を評価した。本論文は、パイプラインに時間的特徴を組み込むことで、異常検出の精度が顕著に向上することを十分な実証的根拠とともに示している。さらに、従来の手法では困難だった長時間継続する異常イベントの検出も可能となった。提案するエンドツーエンドのマルチストリームアーキテクチャは、異常イベント検出において最大84.48%の精度を達成し、既存の動画異常検出手法を上回る性能を示した。また、各カテゴリにおける検出精度は、さまざまな広範カテゴリで6%~14%向上している。