
摘要
我们提出一种从多视角相机数据中估计多人三维姿态的方法。与以往依赖于噪声大且不完整的二维姿态估计结果建立跨视角对应关系的工作不同,本文提出一种端到端的解决方案,直接在三维空间中进行操作,从而避免在二维空间中做出错误判断。为实现这一目标,我们将所有相机视角的特征映射并聚合到一个统一的三维空间中,输入至立方体提议网络(Cuboid Proposal Network, CPN),以粗略定位所有人物。随后,我们提出姿态回归网络(Pose Regression Network, PRN),对每个提议区域估计出精细的三维姿态。该方法对实际场景中频繁发生的遮挡具有较强的鲁棒性。在不依赖复杂附加组件的情况下,该方法在公开数据集上的表现优于现有最先进方法。相关代码将发布于 https://github.com/microsoft/multiperson-pose-estimation-pytorch。