
監視ビデオは現実的な多様な異常を捉えることができます。本論文では、正常なビデオと異常なビデオの両方を活用して異常を学習する方法を提案します。訓練ビデオ内の異常部分やクリップを注釈付ける作業が非常に時間のかかるものであるため、弱ラベル付き訓練ビデオ(つまり、訓練ラベルはクリップレベルではなくビデオレベルで提供される)を用いて、深層多重インスタンスランキングフレームワークを通じて異常を学習することを提案します。当手法では、正常なビデオと異常なビデオを多重インスタンス学習(MIL)におけるバッグとし、ビデオセグメントをインスタンスとして扱い、自動的に高異常度スコアを予測する深層異常ランキングモデルを学習します。さらに、ランキング損失関数に疎らさと時間的平滑性の制約条件を導入することで、訓練中の異常部位の特定精度を向上させます。また、128時間分のビデオから構成される大規模かつ初のデータセットも紹介します。このデータセットには1900本の長時間・未編集の実際の監視ビデオが含まれており、喧嘩、道路事故、窃盗、強盗など13種類の現実的な異常事象および正常活動が記録されています。このデータセットは2つのタスクに使用できます。第1に、すべての異常事象を1つのグループとして扱いすべての正常活動を別のグループとする一般的な異常検出です。第2に、13種類の各々の異常活動の認識です。我々の実験結果は、当MIL手法による異常検出性能が既存最先端手法よりも大幅に向上していることを示しています。また、最近のディープラーニングベースラインにおける異常活動認識結果も提供しています。これらのベースラインでの低い認識性能は、当データセットが非常に難易度が高いことを示しており、今後の研究機会を開く可能性があります。データセットへのアクセスは以下のURLから可能です: https://webpages.uncc.edu/cchen62/dataset.html