摘要

在本工作中，我们研究了从一系列2D人体姿态中估计3D人体姿态的问题。尽管近年来深度网络的进展促使许多先进的3D姿态估计方法采用端到端的方式，直接从图像中预测3D姿态，但表现最优的方法表明，将3D姿态估计任务分解为两个步骤更为有效：首先使用先进的2D姿态估计算法从图像中估计2D姿态，随后将其映射至3D空间。这些方法还表明，诸如一组关节点在2D空间中的位置这样的低维表示，已具备足够的判别能力，可实现高精度的3D姿态估计。然而，若对每一帧独立进行3D姿态估计，由于各帧间独立的误差累积，会导致时间上不连贯的估计结果，产生抖动现象。为此，本文利用连续2D关节点位置序列中的时间信息，以估计一序列的3D姿态。我们设计了一种序列到序列的网络结构，该结构由层归一化的LSTM单元构成，并在解码器侧引入从输入到输出的捷径连接（shortcut connections），同时在训练过程中施加时间平滑性约束。实验结果表明，引入时间一致性先验知识可使我们在Human3.6M数据集上的最佳报告结果提升约12.2%，并且即使在2D姿态检测器失效的情况下，我们的网络仍能恢复出时间上一致的3D姿态序列。

源 PDF