11 天前

LiftFormer：基于注意力模型的3D人体姿态估计

Adrian Llopart

摘要

近年来，估计人体关节的三维位置已成为广泛研究的课题。研究重点主要集中于开发新型方法，将二维数据（关键点）外推为三维坐标，即预测与人体骨骼相关联的关节相对于根节点的三维坐标。最新研究趋势表明，Transformer编码器（Transformer Encoder）块在捕捉时序信息方面显著优于以往方法。因此，我们提出利用此类模型，通过在视频中有序的人体姿态序列上应用注意力机制，充分挖掘时序信息，以实现更精确的三维姿态预测。在Human3.6M数据集上，本方法在使用2D关键点检测器输出作为输入时，相较于文献中先前最优结果，平均关节位置误差（MPJPE）降低0.3毫米（达到44.8毫米，提升0.7%）；在使用真实标注输入时，误差进一步降低2毫米（MPJPE降至31.9毫米，提升8.4%）。此外，在HumanEva-I数据集上，本方法取得了当前最优性能，P-MPJPE达到10.5毫米，较此前方法减少22.2%。所提出的3D提升模型参数量可灵活调节，仅为950万（9.5M），低于现有主流方法（分别为1695万和1125万），且在性能上仍具优势。因此，本方法在端到端或基于SMPL的三维姿态估计模型中表现更优，其精度已可与多种多视角方法相媲美。