
要約
動画レベルのラベルに基づく動画異常検出は、現在においても困難な課題である。これまでの研究では、動画シーケンスに異常が含まれるかどうかを識別する点で進展が見られたが、その多くは動画内の異常イベントを時間軸上に正確に局所化することができていない。本論文では、異常動画内における異常セグメントの時間的局所化に焦点を当てた弱教師あり異常局所化(Weakly Supervised Anomaly Localization, WSAL)手法を提案する。異常動画における外観的差異に着目し、隣接する時間的セグメントの変化の進化を評価することで、異常セグメントの局所化を実現する。そのため、高次元の文脈符号化モデルを提案する。このモデルは、意味表現の抽出に加え、動的な変化を測定することにより、時間的文脈を効果的に活用できるようにする。さらに、空間的文脈情報を十分に活用するため、セグメント表現から直ちに意味情報を導出する。動的な変化と即時的な意味情報は、効率的に集約され、最終的な異常スコアが得られる。また、異常検出におけるノイズ干渉や局所化ガイドの欠如に対処するため、さらに強化戦略を提案する。さらに、異常検出ベンチマークにおける多様性要件を満たすために、交通状況を特徴とする新しい交通異常データセット(Traffic Anomaly Dataset, TAD)を収集した。これは現在一般的な異常検出評価ベンチマークと大きく異なる点を有している。広範な実験により、各構成要素の有効性を検証した結果、本手法はUCF-CrimeおよびTADデータセットにおいて、新たな最先端性能を達成した。