
摘要
尽管深度相机和惯性传感器在人体动作识别中得到了广泛应用,但在许多场景下,由于成本或环境限制,这些传感模式并不实用。因此,最近的研究兴趣集中在利用低成本、易获取的RGB相机通过深度卷积神经网络进行人体动作识别。然而,迄今为止提出的许多用于动作识别的深度卷积神经网络都严重依赖于从图像数据中直接学习全局外观特征,导致网络架构复杂度高、计算成本昂贵且难以训练。为了降低网络复杂度并提高性能,我们引入了时空激活重投影(Spatio-Temporal Activation Reprojection, STAR)的概念。具体而言,我们使用3D卷积堆栈在空间和时间上重新投影由人体姿态估计层生成的时空激活。在UTD-MHAD和J-HMDB数据集上的实验结果表明,基于所提出的STAR框架(我们将其称为STAR-Net)的端到端架构在单环境和小规模应用中表现出色。在UTD-MHAD数据集上,STAR-Net的表现优于几种使用更丰富数据模态(如深度和惯性传感器)的方法。