
摘要
从单目图像序列中恢复三维人体姿态极具挑战性,原因在于多样的外观、视角、遮挡以及单目图像固有的三维姿态模糊性。因此,为了准确预测三维姿态序列,利用身体关节之间的丰富空间和时间长程依赖关系至关重要。现有的方法通常手动设计一些复杂的先验项和人体运动学约束来捕捉结构,但这些方法往往不足以挖掘所有内在结构,并且在所有场景下不具备可扩展性。相比之下,本文提出了一种递归三维姿态序列机(Recurrent 3D Pose Sequence Machine, RPSM),通过多阶段顺序细化自动学习图像依赖的结构约束和序列依赖的时间上下文。在每个阶段,RPSM由三个模块组成,基于先前学习的二维姿态表示和三维姿态预测三维姿态序列:(i) 二维姿态模块提取图像依赖的姿态表示;(ii) 三维姿态递归模块回归三维姿态;(iii) 特征适应模块作为模块(i)和(ii)之间的桥梁,实现从二维到三维域的表示转换。这三个模块随后被整合到一个顺序预测框架中,通过多个递归阶段对预测的姿态进行精细化调整。在Human3.6M数据集和HumanEva-I数据集上的广泛评估表明,我们的RPSM在三维姿态估计方面优于所有现有最先进方法。