HyperAIHyperAI

Command Palette

Search for a command to run...

高效数据的视频Transformer用于暴力检测

almamon rasool abdali

摘要

在智慧城市建设中,暴力事件检测对于保障城市安全至关重要。此前多项研究聚焦于利用二维卷积神经网络(2D-CNN)从视频每一帧中提取空间特征,并结合循环神经网络(RNN)及其变体作为时序特征学习方法,以实现对事件的识别。另一方面,Transformer网络在多个领域已展现出卓越性能。然而,其主要瓶颈在于需要大规模数据集才能取得良好效果。针对这一问题,本文提出一种数据高效型视频Transformer模型(Data-efficient Video Transformer, DeVTr),基于Transformer架构构建时空特征学习机制,并引入预训练的二维卷积神经网络(2D-CNN)作为输入数据的嵌入层,以提升特征表示能力。该模型在真实场景暴力行为数据集(Real-life Violence Dataset, RLVS)上进行了训练与测试,取得了96.25%的准确率。与现有方法的对比结果表明,所提出的方法在暴力事件检测任务中优于其他已有研究,性能表现最佳。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供