概要

最近の対照的言語・画像事前学習（CLIP）モデルは、広範な画像レベルのタスクにおいて著しい成果を上げており、豊かな意味情報を含む強力な視覚表現を学習する優れた能力を示している。このような強力なモデルを動画領域に効率的に適応させ、堅牢な動画異常検出器を設計するという、オープンかつ価値ある課題が残されている。本研究では、事前学習や微調整を一切行わずに、固定されたCLIPモデルを直接活用することで、弱教師付き動画異常検出（WSVAD）のための新しい枠組みであるVadCLIPを提案する。既存の手法が抽出された特徴を弱教師付き分類器に直接入力してフレームレベルの二値分類を行うのに対し、VadCLIPはCLIPの持つ視覚と言語の細粒度な関連性を最大限に活用し、二本の分岐構造を採用している。一方の分岐は視覚特徴のみを用いて粗粒度な二値分類を実行する一方、もう一方の分岐は細粒度な言語-画像アライメントを完全に活用する。この二本の分岐の利点を活かして、VadCLIPはCLIPから事前学習された知識をWSVADタスクに転移することで、粗粒度および細粒度の両方の動画異常検出を実現している。本研究では、一般的に用いられる2つのベンチマーク上で広範な実験を行い、VadCLIPが粗粒度および細粒度のWSVADにおいて、従来の最先端手法を大きく上回る最高性能を達成することを示した。具体的には、XD-Violenceでは84.51%のAP、UCF-Crimeでは88.02%のAUCを達成した。コードおよび特徴量は、https://github.com/nwpu-zxr/VadCLIP にて公開されている。

ソースPDF コードを表示