摘要
在日益被持续监控的世界中,监控摄像头在公共空间中通过发挥威慑作用,对遏制犯罪与暴力行为起到了至关重要的作用。为了进一步提升其效能,亟需开发能够实时检测犯罪行为的自动化工具。本文提出了一种新颖的深度学习架构,能够准确且高效地检测监控视频中的暴力犯罪行为。我们基于以下核心信息进行暴力检测:人体躯干及其相互作用。为此,我们采用人体姿态提取器(human pose extractors)与变化检测器(change detectors)作为模型的输入。随后,我们提出一种创新的融合方法,该方法通过加法而非乘法操作实现信息融合,从而确保当任一输入信号为零值时,信息仍能有效传递,显著优于现有文献中的其他融合策略。最后,为同时建模空间与时间特征,我们采用标准LSTM的卷积变体——ConvLSTM。在多个基准数据集上进行的实验结果表明,所提方法在检测性能与计算效率方面均表现出色,实现了当前最优(state-of-the-art)的检测效果,且所需可训练参数显著减少。相关代码已开源,可供复现该架构,地址为:https://github.com/atmguille/Violence-Detection-With-Human-Skeletons。