
摘要
近年来,基于Transformer的解决方案在三维人体姿态估计任务中取得了显著成功。然而,为了计算关节间的关联矩阵,其计算开销随关节数量的增加呈二次增长,这一缺陷在视频序列中尤为突出,因为视频姿态估计需要建模贯穿整个视频的时空相关性。针对这一问题,本文提出将相关性学习分解为空间与时间两个维度,设计了一种新型的时空交叉注意力(Spatio-Temporal Criss-cross Attention, STC)模块。技术上,STC首先将输入特征沿通道维度均分为两部分,分别在每部分上执行空间注意力与时间注意力;随后通过拼接注意力层的输出,同时建模同一帧内关节之间的相互作用以及同一运动轨迹上关节之间的关联。在此基础上,本文构建了STCFormer模型,通过堆叠多个STC模块,并引入一种新型的结构增强型位置编码(Structure-enhanced Positional Embedding, SPE),以显式建模人体结构先验信息。该位置编码由两部分组成:一是围绕邻近关节的时空卷积,用于捕捉局部结构特征;二是部件感知嵌入,用于指示每个关节所属的身体部位。在Human3.6M和MPI-INF-3DHP两个基准数据集上的大量实验表明,所提方法在性能上优于现有最先进方法。尤为突出的是,STCFormer在具有挑战性的Human3.6M数据集上取得了目前公开报道的最佳性能,达到40.5毫米的P1误差。