2 个月前

基于弱监督的空间-时间提示的视频异常检测与定位

Peng Wu; Xuerong Zhou; Guansong Pang; Zhiwei Yang; Qingsen Yan; Peng Wang; Yanning Zhang
基于弱监督的空间-时间提示的视频异常检测与定位
摘要

当前弱监督视频异常检测(WSVAD)任务的目标是在仅有粗略视频级注释的情况下实现帧级别的异常事件检测。现有的研究通常涉及从全分辨率视频帧中提取全局特征,并训练帧级别分类器以在时间维度上检测异常。然而,大多数异常事件往往发生在局部空间区域而非整个视频帧,这表明基于现有帧级别特征的方法可能会被主导的背景信息所误导,并且缺乏对检测到的异常的解释能力。为了解决这一困境,本文引入了一种称为STPrompt的新方法,该方法利用预训练的视觉-语言模型(VLMs)学习时空提示嵌入,以实现弱监督视频异常检测和定位(WSVADL)。我们提出的方法采用了双流网络结构,其中一个流专注于时间维度,另一个流主要关注空间维度。通过利用预训练VLMs学到的知识并结合原始视频中的自然运动先验,我们的模型学习了与视频时空区域(例如,单个帧的补丁)对齐的提示嵌入,从而识别特定的局部异常区域,实现了准确的视频异常检测同时减轻了背景信息的影响。无需依赖详细的时空注释或辅助的对象检测/跟踪,我们的方法在三个公开基准数据集上的WSVADL任务中达到了最先进的性能。

基于弱监督的空间-时间提示的视频异常检测与定位 | 最新论文 | HyperAI超神经