6 个月前

计算机视觉

计算机视觉

almamon rasool abdali

摘要

在智慧城市建设中，暴力事件检测对于保障城市安全至关重要。此前多项研究聚焦于利用二维卷积神经网络（2D-CNN）从视频每一帧中提取空间特征，并结合循环神经网络（RNN）及其变体作为时序特征学习方法，以实现对事件的识别。另一方面，Transformer网络在多个领域已展现出卓越性能。然而，其主要瓶颈在于需要大规模数据集才能取得良好效果。针对这一问题，本文提出一种数据高效型视频Transformer模型（Data-efficient Video Transformer, DeVTr），基于Transformer架构构建时空特征学习机制，并引入预训练的二维卷积神经网络（2D-CNN）作为输入数据的嵌入层，以提升特征表示能力。该模型在真实场景暴力行为数据集（Real-life Violence Dataset, RLVS）上进行了训练与测试，取得了96.25%的准确率。与现有方法的对比结果表明，所提出的方法在暴力事件检测任务中优于其他已有研究，性能表现最佳。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

almamon rasool abdali

摘要

在智慧城市建设中，暴力事件检测对于保障城市安全至关重要。此前多项研究聚焦于利用二维卷积神经网络（2D-CNN）从视频每一帧中提取空间特征，并结合循环神经网络（RNN）及其变体作为时序特征学习方法，以实现对事件的识别。另一方面，Transformer网络在多个领域已展现出卓越性能。然而，其主要瓶颈在于需要大规模数据集才能取得良好效果。针对这一问题，本文提出一种数据高效型视频Transformer模型（Data-efficient Video Transformer, DeVTr），基于Transformer架构构建时空特征学习机制，并引入预训练的二维卷积神经网络（2D-CNN）作为输入数据的嵌入层，以提升特征表示能力。该模型在真实场景暴力行为数据集（Real-life Violence Dataset, RLVS）上进行了训练与测试，取得了96.25%的准确率。与现有方法的对比结果表明，所提出的方法在暴力事件检测任务中优于其他已有研究，性能表现最佳。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供