11 天前

基于骨架的动作识别:时空Transformer网络

Chiara Plizzari, Marco Cannici, Matteo Matteucci
基于骨架的动作识别:时空Transformer网络
摘要

基于骨骼的人体动作识别近年来受到广泛关注,因其骨骼数据在光照变化、身体尺度、动态摄像机视角以及复杂背景等条件下均表现出较强的鲁棒性。特别是时空图卷积网络(Spatial-Temporal Graph Convolutional Networks, ST-GCN)在学习非欧几里得数据(如骨骼图结构)中的空间与时间依赖关系方面展现出显著有效性。然而,如何高效编码三维骨骼数据中隐含的潜在信息,尤其是从关节运动模式及其相关性中提取有效特征,仍然是一个开放性难题。为此,本文提出一种新型的时空Transformer网络(Spatial-Temporal Transformer, ST-TR),该模型采用Transformer的自注意力机制来建模关节之间的依赖关系。在所提出的ST-TR架构中,引入空间自注意力模块(Spatial Self-Attention, SSA)以捕捉帧内不同身体部位间的内部交互关系,同时设计时间自注意力模块(Temporal Self-Attention, TSA)以建模帧间的时间相关性。两个模块构成双流网络结构,其性能在三个大规模数据集——NTU-RGB+D 60、NTU-RGB+D 120以及Kinetics Skeleton 400上进行了系统评估,结果一致优于现有骨干网络。在仅使用关节坐标作为输入的情况下,所提出的ST-TR在所有数据集上均达到当前最优(state-of-the-art)性能;当进一步引入骨骼信息后,其性能与现有最先进方法相当,验证了该模型在高效建模骨骼动作时序与空间结构方面的优越能力。

基于骨架的动作识别:时空Transformer网络 | 最新论文 | HyperAI超神经