
弱教師あり動画異常検出は、訓練時にフレーム単位のアノテーションが存在しないため、大きな課題を抱えている。従来の研究では、時間的関係のモデリングおよび判別的特徴の学習を目的として、グラフ畳み込みネットワーク(GCN)や自己注意機構(self-attention)と、複数インスタンス学習(MIL)に基づく分類損失を組み合わせた手法が用いられてきた。しかし、これらの手法は通常、局所的依存関係とグローバル依存関係を別々に捉えるためにマルチブランチアーキテクチャを採用しており、パラメータ数および計算コストが増加するという問題がある。さらに、MILに基づく損失関数が提供する二値制約による粗いクラス間分離性は、異常クラス内部における細粒度の判別性を無視する傾向がある。こうした課題に対応して、本論文では効率的な文脈モデリングと強化された意味的判別性を重視した弱教師あり異常検出手法を提案する。まず、類似度行列を再利用し、適応的融合を実装することで、包括的な文脈情報を捉える「時間的文脈集約(Temporal Context Aggregation: TCA)」モジュールを導入する。さらに、知識ベースのプロンプトを用いて意味的事前知識を統合し、文脈特徴の判別能力を向上させるとともに、異常サブクラス間の分離性を確保する「プロンプト強化学習(Prompt-Enhanced Learning: PEL)」モジュールを提案する。広範な実験により、本手法の各構成要素の有効性が検証され、UCF-Crime、XD-Violence、ShanghaiTechの3つの難易度の高いベンチマークにおいて、パラメータ数および計算負荷を低減しつつ、競争力ある性能を達成した。特に、特定の異常サブクラスにおける検出精度が顕著に向上した点は、本手法の実用的価値と有効性を示している。本研究のコードは以下のURLから公開されている:https://github.com/yujiangpu20/PEL4VAD。