
摘要
在弱监督视频异常检测中,由于训练阶段缺乏帧级标注,面临重大挑战。尽管已有研究采用图卷积网络与自注意力机制,并结合基于多实例学习(MIL)的分类损失来建模时序关系并学习判别性特征,但这些方法通常依赖多分支架构分别捕捉局部与全局依赖关系,导致参数量增加和计算开销上升。此外,MIL损失所施加的二元类别约束所提供的粗粒度类间可分性,忽视了异常类别内部的细粒度判别能力。针对上述问题,本文提出一种面向高效上下文建模与增强语义判别性的弱监督异常检测框架。我们设计了时序上下文聚合(Temporal Context Aggregation, TCA)模块,通过重用相似性矩阵并引入自适应融合机制,有效捕捉全面的上下文信息。同时,提出提示增强学习(Prompt-Enhanced Learning, PEL)模块,利用基于知识的提示引入语义先验,提升上下文特征的判别能力,同时保障异常子类之间的可分性。大量实验验证了所提方法各组件的有效性,在三个具有挑战性的基准数据集——UCF-Crime、XD-Violence 和 ShanghaiTech 上,实现了具有竞争力的性能,且显著降低了模型参数量与计算成本。尤为突出的是,本方法在多个异常子类的检测准确率上均有显著提升,充分体现了其实际应用价值与有效性。代码已开源,地址为:https://github.com/yujiangpu20/PEL4VAD。