2 个月前

场景感知的以自我为中心的3D人体姿态估计

Wang, Jian ; Liu, Lingjie ; Xu, Weipeng ; Sarkar, Kripasindhu ; Luvizon, Diogo ; Theobalt, Christian

摘要

使用单个头戴式鱼眼相机进行以自我为中心的3D人体姿态估计最近因其在虚拟现实和增强现实中的广泛应用而受到关注。现有的方法在处理具有挑战性的姿态时仍面临困难，例如人体高度遮挡或与场景紧密互动的情况。为了解决这一问题，我们提出了一种基于场景感知的以自我为中心的姿态估计方法，该方法利用场景约束指导以自我为中心的姿态预测。为此，我们设计了一个以自我为中心的深度估计网络，可以从广角的以自我为中心的鱼眼相机中预测场景深度图，并通过一个深度修复网络减轻人体遮挡的影响。接下来，我们提出了一个基于场景感知的姿态估计网络，该网络将2D图像特征和估计的场景深度图投影到体素空间，并通过V2V（Volume-to-Volume）网络回归3D姿态。基于体素的特征表示提供了2D图像特征与场景几何之间的直接几何联系，并进一步促进了V2V网络根据估计的场景几何来约束预测的姿态。为了支持上述网络的训练，我们还生成了一个合成数据集，称为EgoGTA，以及一个基于EgoPW的真实世界数据集，称为EgoPW-Scene。我们的新评估序列实验结果显示，预测的3D以自我为中心的姿态在人类与场景交互方面准确且物理上合理，证明了我们的方法在定量和定性方面均优于现有最先进方法。