17 天前

(Fusionformer)：基于Transformer的融合网络挖掘联合运动协同性用于3D人体姿态估计

Xinwei Yu, Xiaohua Zhang

摘要

在当前的3D人体姿态估计任务中，一类主流方法主要通过建模时空相关性来学习2D到3D投影的规律。然而，早期的方法通常在时域上对全身关节的全局特征进行建模，却忽略了单个关节的运动轨迹。近期工作[29]指出不同关节之间的运动存在差异，并分别处理各关节的时序关系。然而，我们发现，在某些特定动作下，不同关节表现出相似的运动趋势。为此，本文提出的Fusionformer方法在时空模块的基础上，引入了自轨迹模块（self-trajectory module）与互轨迹模块（mutual-trajectory module），以捕捉关节间的局部运动特征。随后，通过一个线性网络以并行方式将全局时空特征与局部关节轨迹特征进行融合。为进一步消除不良2D姿态对3D重建结果的负面影响，我们还设计了一个姿态精炼网络（pose refinement network），以增强3D投影结果的一致性。此外，我们在两个基准数据集（Human3.6M 和 MPI-INF-3DHP）上对所提方法进行了评估。与基线方法PoseFormer相比，所提方法在Human3.6M数据集上分别实现了2.4%的MPJPE降低和4.3%的P-MPJPE降低，验证了其有效性与优越性。