
摘要
在这项工作中,我们解决了从一系列2D人体姿态中估计3D人体姿态的问题。尽管深度网络的最新成功促使许多最先进的3D姿态估计方法采用端到端的方式直接从图像中进行预测,但表现最佳的方法已经证明了将3D姿态估计任务分为两个步骤的有效性:首先使用最先进的2D姿态估计器从图像中估计2D姿态,然后将其映射到3D空间。这些方法还表明,低维表示(如一组关节的2D位置)足以区分并以高精度估计3D姿态。然而,对单个帧进行3D姿态估计会导致由于每个帧中的独立误差而引起的时序不连贯估计,从而产生抖动现象。因此,在这项工作中,我们利用了一系列2D关节位置之间的时序信息来估计一系列3D姿态。我们设计了一个由层归一化LSTM单元组成的序列到序列网络,并在解码器侧通过连接输入和输出的捷径连接来施加时序平滑约束。我们发现,时序一致性知识使我们在Human3.6M数据集上的最佳报告结果提高了约12.2%,并且即使在2D姿态检测器失效的情况下,也能帮助我们的网络恢复出一系列图像中的时序一致的3D姿态。