複数のランク付け指標を用いた動きと外観の共同学習に基づく動画内の異常イベント認識
注釈付きデータセットの不足という状況を踏まえ、異常行動検出のタスクにおいて、異常イベントの文脈依存性の学習および誤報の低減は大きな課題である。本研究では、動きと外見特徴の両方を統合的に学習する手法を用いて文脈依存性を捉える、マルチランキング測定を備えた深層ネットワーク(Deep-network with Multiple Ranking Measures, DMRMs)というフレームワークを提案する。DMRMsでは、3次元畳み込み残差ネットワーク(3D ResNet)を用いて動画から空間時間依存性のある特徴量を抽出し、さらにMotionflowマップの情報を3D ResNetと統合することで深層的な動き特徴を抽出する。その後、抽出された特徴量を統合的に融合し、統合学習を実施する。このデータ統合は、提案する複数のランキング測定(Multiple Ranking Measures, MRMs)を用いて弱教師あり学習の枠組みで、文脈依存性を学習するための深層複数インスタンス学習(Deep Multiple Instance Learning, DMIL)を経由する。MRMsは誤報の多様な評価指標を考慮しており、正常および異常イベントの両方を用いてネットワークを学習するため、誤報率の低減が可能となる。一方、推論段階では、動きフロー(Motion flow)マップを用いて各フレームの異常度スコアおよび移動物体の局所化を予測する。異常度スコアが高いほど、異常イベントの存在が示唆される。最近かつ挑戦的な2つのデータセットにおける実験結果から、本提案フレームワークはUCF-Crimeデータセットにおいて最新の手法と比較してAUCスコアを6.5%向上させ、ShanghaiTechデータセットではAUC 68.5%を達成した。