16 天前

基于骨架的动作识别的时空图注意力网络

Lianyu Hu, Shenglan Liu, Wei Feng
基于骨架的动作识别的时空图注意力网络
摘要

在基于骨架的动作识别领域,当前方法普遍侧重于捕捉长期时间依赖性,因为骨架序列通常较长(超过128帧),这给以往的方法带来了严峻挑战。在此背景下,短期依赖关系往往被形式化地忽略,而这些短期依赖对于区分相似动作至关重要。大多数现有方法由交替排列的空间模块与时间模块构成,导致相邻帧之间关节间的直接信息流动受到阻碍,因而难以有效捕捉短期运动特征,也难以区分相似的动作对。为克服这一局限,本文提出一种通用框架——STGAT(Spatial-Temporal Graph Attention Transformer),用于建模跨时空的信息流动。该框架为仅具备空间建模能力的模块引入了时空联合建模能力,增强了对局部区域动态变化的感知能力。尽管STGAT在理论上已具备出色的时空建模能力,我们进一步设计了三个简洁有效的模块,以降低局部时空特征的冗余,充分释放其潜力:(1)缩小自注意力机制的作用范围;(2)在时间维度上动态加权关键关节;(3)将细微运动特征与静态特征进行分离。作为一项鲁棒的特征提取器,STGAT在区分相似动作方面显著优于以往方法,这一优势在定性和定量实验结果中均得到验证。在三个大规模数据集——NTU RGB+D 60、NTU RGB+D 120 和 Kinetics Skeleton 400 上,STGAT均取得了当前最优(state-of-the-art)的性能表现。相关代码已公开发布。