7 个月前

摘要

在这项工作中，我们解决了从一系列2D人体姿态中估计3D人体姿态的问题。尽管深度网络的最新成功促使许多最先进的3D姿态估计方法采用端到端的方式直接从图像中进行预测，但表现最佳的方法已经证明了将3D姿态估计任务分为两个步骤的有效性：首先使用最先进的2D姿态估计器从图像中估计2D姿态，然后将其映射到3D空间。这些方法还表明，低维表示（如一组关节的2D位置）足以区分并以高精度估计3D姿态。然而，对单个帧进行3D姿态估计会导致由于每个帧中的独立误差而引起的时序不连贯估计，从而产生抖动现象。因此，在这项工作中，我们利用了一系列2D关节位置之间的时序信息来估计一系列3D姿态。我们设计了一个由层归一化LSTM单元组成的序列到序列网络，并在解码器侧通过连接输入和输出的捷径连接来施加时序平滑约束。我们发现，时序一致性知识使我们在Human3.6M数据集上的最佳报告结果提高了约12.2%，并且即使在2D姿态检测器失效的情况下，也能帮助我们的网络恢复出一系列图像中的时序一致的3D姿态。

源 PDF