摘要
在监控系统中检测暴力事件在执法与城市安全领域发挥着重要作用。暴力事件检测器的性能主要通过响应速度、检测准确率以及在不同视频源(格式各异)下的泛化能力来衡量。尽管已有诸多研究聚焦于提升检测速度或准确率,甚至两者兼顾,但大多未充分考虑模型在不同视频源之间的泛化性能。本文提出了一种基于深度学习的实时暴力事件检测模型。该模型采用卷积神经网络(CNN)作为空间特征提取器,结合长短期记忆网络(LSTM)以建模时序关系,重点优化三个核心指标:整体泛化能力、检测准确率与快速响应时间。实验结果表明,所提模型在保持98%高准确率的同时,实现每秒131帧的处理速度。与现有方法相比,该模型在准确率与处理速度方面均优于以往所有相关工作,展现出卓越的综合性能。