
摘要
基于骨架的动作识别面临的一个挑战是,难以区分运动模式相似的动作以及涉及物体的动作。在此方面,来自其他模态的视觉线索能够提供有效帮助。然而,RGB数据对光照条件敏感,在黑暗环境中无法使用。为缓解这一问题并依然利用视觉模态的优势,我们提出了一种模块化网络结构(FUSION),融合骨架数据与红外数据。该方法采用二维卷积神经网络(2D CNN)作为姿态模块,从骨架数据中提取特征;同时使用三维卷积神经网络(3D CNN)作为红外模块,从红外视频中提取视觉线索。随后,将两个模态提取的特征向量进行拼接,并通过多层感知机(MLP)进行联合建模与分析。此外,骨架数据还用于引导红外视频的裁剪,生成围绕动作执行者区域的局部视图,从而在视觉上聚焦红外模块的关注区域。消融实验表明,使用在其他大规模数据集上预训练的网络作为模块,结合数据增强策略,可显著提升动作分类的准确率。同时,本文提出的裁剪策略在性能提升方面也展现出显著贡献。我们在目前规模最大、用于深度摄像头下人体动作识别的NTU RGB+D数据集上对所提方法进行了评估,实验结果达到了当前最优(state-of-the-art)的性能水平。