18 天前

基于深度图的动作识别方法:使用深度卷积神经网络

{Jing Zhang, Wanqing Li, Zhimin Gao, Philip Ogunbona, Chang Tang, Pichao Wang}
摘要

本文提出了一种新方法——加权分层深度运动图(Weighted Hierarchical Depth Motion Maps, WHDMM)结合三通道深度卷积神经网络(3ConvNets),用于在小规模训练数据集上基于深度图进行人体动作识别。为充分挖掘卷积神经网络(ConvNets)在提取判别性特征方面的潜力,本文设计了三种策略。首先,通过旋转捕获的深度图中的三维点,模拟不同视角,不仅扩充了训练数据,还增强了训练后ConvNets对视角变化的鲁棒性。其次,构建多个时间尺度下的WHDMM,将动作的时空运动模式编码为二维空间结构,并进一步通过将WHDMM转换为伪彩色图像,提升其用于识别的表征能力。最后,三个ConvNets分别基于ImageNet预训练模型进行初始化,并在三个正交平面上构建的彩色编码WHDMM上独立进行微调。所提算法在MSRAction3D、MSRAction3DExt、UTKinect-Action和MSRDailyActivity3D数据集上采用跨被试者协议进行了评估;此外,还在由上述数据集整合构建的大规模数据集上进行了测试。实验结果表明,该方法在多数单个数据集上的识别准确率提升了2%至9%。更重要的是,该方法在大规模数据集上仍能保持优异性能,而现有方法的性能则随着动作类别数量的增加而显著下降。