
摘要
基于骨架的人体动作识别近年来随着大规模骨架数据集的可用性而受到越来越多的关注。该任务的关键因素主要体现在两个方面:帧内表示用于关节共现和帧间表示用于骨架的时间演变。本文提出了一种端到端的卷积共现特征学习框架。共现特征通过层次化方法进行学习,逐步聚合不同层次的上下文信息。首先,每个关节的点级信息被独立编码,然后在空间域和时间域中组装成语义表示。具体而言,我们引入了一种全局空间聚合方案,能够比局部聚合更好地学习关节共现特征。此外,原始骨架坐标及其时间差分通过双流范式进行整合。实验结果表明,我们的方法在 NTU RGB+D、SBU Kinect 交互和 PKU-MMD 等动作识别和检测基准上持续优于其他最先进方法。