6 个月前

摘要

基于骨骼的人体动作识别近年来受到广泛关注，因其骨骼数据在光照变化、身体尺度、动态摄像机视角以及复杂背景等条件下均表现出较强的鲁棒性。特别是时空图卷积网络（Spatial-Temporal Graph Convolutional Networks, ST-GCN）在学习非欧几里得数据（如骨骼图结构）中的空间与时间依赖关系方面展现出显著有效性。然而，如何高效编码三维骨骼数据中隐含的潜在信息，尤其是从关节运动模式及其相关性中提取有效特征，仍然是一个开放性难题。为此，本文提出一种新型的时空Transformer网络（Spatial-Temporal Transformer, ST-TR），该模型采用Transformer的自注意力机制来建模关节之间的依赖关系。在所提出的ST-TR架构中，引入空间自注意力模块（Spatial Self-Attention, SSA）以捕捉帧内不同身体部位间的内部交互关系，同时设计时间自注意力模块（Temporal Self-Attention, TSA）以建模帧间的时间相关性。两个模块构成双流网络结构，其性能在三个大规模数据集——NTU-RGB+D 60、NTU-RGB+D 120以及Kinetics Skeleton 400上进行了系统评估，结果一致优于现有骨干网络。在仅使用关节坐标作为输入的情况下，所提出的ST-TR在所有数据集上均达到当前最优（state-of-the-art）性能；当进一步引入骨骼信息后，其性能与现有最先进方法相当，验证了该模型在高效建模骨骼动作时序与空间结构方面的优越能力。

源 PDF