摘要

最近，对比语言-图像预训练（Contrastive Language-Image Pre-training, CLIP）模型在众多图像级任务中取得了显著成功，展现出学习具有丰富语义信息的强大视觉表征能力。然而，如何高效地将这一强大的模型迁移到视频领域，并设计出鲁棒的视频异常检测器，仍是一个开放且具有研究价值的问题。本文提出了一种名为VadCLIP的新范式，用于弱监督视频异常检测（Weakly Supervised Video Anomaly Detection, WSVAD），其核心思想是直接利用冻结的CLIP模型，无需任何预训练或微调过程。与现有方法直接将提取的特征输入弱监督分类器进行帧级二分类不同，VadCLIP充分利用了CLIP模型在视觉与语言之间所具备的细粒度关联能力，并引入双分支结构。其中一个分支仅使用视觉特征进行粗粒度的二分类；另一个分支则充分挖掘视觉与语言之间的细粒度对齐信息。得益于双分支设计，VadCLIP能够通过将CLIP中预训练的知识迁移至WSVAD任务，同时实现粗粒度与细粒度的视频异常检测。我们在两个常用基准数据集上进行了大量实验，结果表明，VadCLIP在粗粒度和细粒度WSVAD任务上均取得了最佳性能，显著超越当前最先进的方法。具体而言，在XD-Violence数据集上，VadCLIP达到84.51%的平均精度（AP）；在UCF-Crime数据集上，AUC指标达到88.02%。相关代码与特征已开源，地址为：https://github.com/nwpu-zxr/VadCLIP。

源 PDF 查看代码