
摘要
我们提出了一种用于自然图像中联合2D与3D人体姿态估计的端到端架构。本方法的核心在于为每张图像生成并评分多个姿态候选方案,从而实现对多个人体的2D与3D姿态的同步预测。因此,该方法无需预先对人体位置进行近似定位即可完成初始化。所提出的网络架构名为LCR-Net,包含三个主要组成部分:1)姿态候选生成器,用于在图像不同位置提出潜在的姿态;2)分类器,用于对不同的姿态候选进行打分;3)回归器,用于在2D和3D空间中对姿态候选进行精细化调整。这三个阶段共享卷积特征层,并采用联合训练的方式。最终的姿态估计结果通过融合邻近的姿态假设获得,实验表明该方法优于传统的非极大值抑制(non-maximum suppression)算法。在受控环境下的Human3.6M数据集上,该方法在3D姿态估计任务中显著超越了当前最优水平;同时,在MPII 2D姿态基准数据集的真实图像场景中,无论针对单人还是多人子集,均取得了具有前景的性能表现。