摘要
在智慧城市建设中,暴力事件检测对于保障城市安全至关重要。此前多项研究聚焦于利用二维卷积神经网络(2D-CNN)从视频每一帧中提取空间特征,并结合循环神经网络(RNN)及其变体作为时序特征学习方法,以实现对事件的识别。另一方面,Transformer网络在多个领域已展现出卓越性能。然而,其主要瓶颈在于需要大规模数据集才能取得良好效果。针对这一问题,本文提出一种数据高效型视频Transformer模型(Data-efficient Video Transformer, DeVTr),基于Transformer架构构建时空特征学习机制,并引入预训练的二维卷积神经网络(2D-CNN)作为输入数据的嵌入层,以提升特征表示能力。该模型在真实场景暴力行为数据集(Real-life Violence Dataset, RLVS)上进行了训练与测试,取得了96.25%的准确率。与现有方法的对比结果表明,所提出的方法在暴力事件检测任务中优于其他已有研究,性能表现最佳。