弱教師付きビデオ異常検出と局所化における時空間プロンプトの利用

現在の弱教師付きビデオ異常検出(Weakly Supervised Video Anomaly Detection: WSVAD)タスクは、粗いビデオレベルのアノテーションのみを使用してフレームレベルの異常イベントを検出することを目指しています。既存の研究では、通常、フル解像度のビデオフレームからグローバル特徴を抽出し、時間軸での異常を検出するためのフレームレベル分類器を訓練することが含まれています。しかし、ほとんどの異常イベントは全体的なビデオフレームではなく局所的な空間領域で発生する傾向があり、これは既存のフレームレベル特徴に基づく手法が背景情報に誘導される可能性があり、検出された異常の解釈が不足していることを示唆しています。このジレンマに対処するために、本論文では事前学習済み視覚言語モデル(Vision-Language Models: VLMs)を基にした新しい手法STPromptを提案します。STPromptは、空間時間領域での弱教師付きビデオ異常検出と局所化(Weakly Supervised Video Anomaly Detection and Localization: WSVADL)を行うために設計されています。提案手法は二つのストリームを持つネットワーク構造を採用しており、一方のストリームは時間軸に焦点を当て、他方は主に空間軸に焦点を当てています。事前学習済みVLMsから得られた知識を利用し、生データからの自然な運動事前情報を組み込むことで、当モデルはビデオの空間時間領域(例:個々のフレームのパッチ)と整合性のあるプロンプト埋め込みを学習します。これにより特定の局所領域における異常を識別し、正確なビデオ異常検出を実現しながら背景情報の影響を軽減することが可能となります。詳細な空間時間アノテーションや補助的な物体検出/追跡に依存せずに、当手法はWSVADLタスクにおいて3つの公開ベンチマークで最先端の性能を達成しています。