
要約
弱教師付き動画異常検出(WS-VAD)は、識別的な表現に基づいて異常を正常なイベントから区別することを目的としている。既存の多数の研究は、動画表現が不十分であるという制約に直面している。本研究では、動画レベルのラベルのみを用いて、タスク固有の識別的表現を効率的に精緻化するための複数インスタンス自己学習フレームワーク(MIST)を提案する。具体的には、MISTは以下の2つの構成要素からなる:1)複数インスタンス疑似ラベル生成器であり、スパースで連続的なサンプリング戦略を採用することで、より信頼性の高いクリップレベルの疑似ラベルを生成する。2)自己誘導型アテンションを強化した特徴エンコーダであり、タスク固有の表現を抽出する際、自動的にフレーム内の異常領域に注目することを目的としている。さらに、両方の構成要素を最適化するための自己学習スキームを採用し、最終的にタスク固有の特徴エンコーダを獲得する。2つの公開データセットにおける広範な実験により、本手法の有効性が実証された。特に、ShanghaiTechデータセットにおいてフレームレベルのAUCが94.83%を達成し、従来の教師ありおよび弱教師あり手法と同等、あるいはそれ以上の性能を発揮した。