
摘要
当前关于多人3D姿态估计的研究主要集中在相对于根关节的3D关节位置估计上,而忽略了每个姿态的绝对位置。在本文中,我们提出了一种用于相机坐标空间中绝对根关节定位的端到端框架——人体深度估计网络(HDNet)。我们的HDNet首先通过关节热图估计2D人体姿态。这些估计的热图作为注意力掩码,用于从目标人物对应图像区域中池化特征。我们利用基于骨架的图神经网络(GNN)在关节之间传播特征。我们将目标深度回归问题表述为一个箱索引估计问题,该问题可以通过从HDNet的分类输出中应用软最大值(soft-argmax)操作进行转换。我们在两个基准数据集Human3.6M和MuPoTS-3D上对HDNet进行了根关节定位和根相对3D姿态估计任务的评估。实验结果表明,我们在多个评估指标下始终优于先前的最先进方法。我们的源代码可在以下地址获取:https://github.com/jiahaoLjh/HumanDepth。