2 个月前

管卷积神经网络(T-CNN)用于视频中的动作检测

Rui Hou; Chen Chen; Mubarak Shah
管卷积神经网络(T-CNN)用于视频中的动作检测
摘要

深度学习在图像分类和目标检测方面已经证明能够取得优异的结果。然而,由于视频数据的复杂性和注释的缺乏,深度学习对视频分析(如动作检测和识别)的影响一直有限。以往基于卷积神经网络(CNN)的视频动作检测方法通常包括两个主要步骤:帧级动作提案检测和跨帧提案关联。此外,这些方法采用双流CNN框架分别处理空间和时间特征。本文提出了一种用于视频中动作检测的端到端深度网络,称为Tube Convolutional Neural Network(T-CNN)。所提出的架构是一个统一的网络,能够基于3D卷积特征识别和定位动作。首先,将视频分成等长的片段,然后根据3D卷积网络(ConvNet)特征为每个片段生成一组管状提案。最后,通过网络流算法将不同片段的管状提案连接起来,并利用这些链接的视频提案进行时空动作检测。在多个视频数据集上的大量实验表明,与现有最先进方法相比,T-CNN在修剪和未修剪视频的动作分类和定位方面表现出色。

管卷积神经网络(T-CNN)用于视频中的动作检测 | 最新论文 | HyperAI超神经