
摘要
我们提出了一种通过在模型中融入多视图几何先验来从多视图图像中恢复绝对3D人体姿态的方法。该方法包括两个独立的步骤:(1)估计多视图图像中的2D姿态;(2)从多视图2D姿态中恢复3D姿态。首先,我们将一种跨视图融合方案引入卷积神经网络(CNN),以联合估计多个视图的2D姿态。因此,每个视图的2D姿态估计已经受益于其他视图的信息。其次,我们提出了一种递归的图像结构模型(Pictorial Structure Model),用于从多视图2D姿态中恢复3D姿态。该模型逐步提高3D姿态的准确性,同时计算成本可控。我们在两个公开数据集H36M和Total Capture上测试了我们的方法。这两个数据集上的平均关节位置误差分别为26毫米和29毫米,显著优于现有最先进方法(26毫米对比52毫米,29毫米对比35毫米)。我们的代码已发布在 \url{https://github.com/microsoft/multiview-human-pose-estimation-pytorch}。