17日前

クローズテストを活用した動画異常検出:動画イベントの完了を学ぶことで効果的に実現する手法

Guang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin, Marius Kloft
クローズテストを活用した動画異常検出:動画イベントの完了を学ぶことで効果的に実現する手法
要約

メディアコンテンツ解釈における重要な課題である動画異常検出(Video Anomaly Detection: VAD)は、深層ニューラルネットワーク(DNN)の活用により著しい進展を遂げてきた。しかし、従来の手法は一般的に再構成またはフレーム予測のアプローチに従っており、以下の二つの課題を抱えている。(1)動画内の活動を高精度かつ包括的に局所化できない。(2)高レベルな意味情報および時系列的文脈情報を十分に活用する能力に欠ける。言語学習で頻繁に用いられる「穴埋めテスト(cloze test)」に着想を得て、上記の課題を克服する新たなVADアプローチである「Video Event Completion(VEC)」を提案する。本手法は以下の三つの要素から構成される。第一に、動画活動を高精度かつ包括的に包摂するための新しいパイプラインを提案する。外観と運動情報の両方を相互に補完的な特徴として用い、注目領域(Region of Interest: RoI)を正確に特定する。各RoIから正規化された空間時系列立方体(Spatio-Temporal Cube: STC)を構築し、これを「動画イベント」として定義する。これによりVECの基盤が構築され、処理の基本単位として機能する。第二に、DNNが高レベルな意味情報を捉えるように促すため、視覚的穴埋めテストを導入する。このテストでは、STCの特定領域を削除して「不完全なイベント(Incomplete Event: IE)」を生成し、DNNがIEから元の動画イベントを復元するよう学習させる。すなわち、欠落した領域を推論することで、元のイベントを再構成する能力を獲得させる。第三に、より豊かな運動ダイナミクスを捉えるため、別途DNNを用いて削除された領域の光流(optical flow)を推定する学習を実施する。最後に、異なる種類のIEおよび複数モダリティを用いた二つのアンサンブル戦略を提案し、時系列的文脈情報およびモダリティ情報の効果的な活用を図ることで、VAD性能の向上を実現する。実験結果によれば、VECは一般的に用いられるVADベンチマークにおいて、最先端手法を著しく上回る性能を発揮し、通常1.5%~5%のAUROC向上が確認された。本研究のコードおよび実験結果は、github.com/yuguangnudt/VEC_VAD にて公開・検証可能である。

クローズテストを活用した動画異常検出:動画イベントの完了を学ぶことで効果的に実現する手法 | 最新論文 | HyperAI超神経