11 天前

SPEC:通过估计的相机在自然场景中识别人员

Muhammed Kocabas, Chun-Hao P. Huang, Joachim Tesch, Lea Müller, Otmar Hilliges, Michael J. Black
SPEC:通过估计的相机在自然场景中识别人员
摘要

由于真实场景图像(in-the-wild images)缺乏相机参数信息,现有的三维人体姿态与形状(3D Human Pose and Shape, HPS)估计方法通常采用若干简化假设:弱透视投影、恒定的大焦距以及零相机旋转。然而,这些假设在实际中往往不成立。我们通过定量与定性分析表明,这些假设会导致重建的三维人体形状与姿态产生显著误差。为解决这一问题,我们提出SPEC——首个能够从单张图像中估计透视相机参数的真实场景三维HPS方法,并利用估计出的相机参数实现更精确的人体三维重建。首先,我们训练一个神经网络,根据输入图像估计视场角(field of view)、相机俯仰角(pitch)和翻滚角(roll)。我们设计了新颖的损失函数,显著提升了相机标定的精度,优于以往方法。随后,我们构建了一种新型网络架构,将估计得到的相机参数与图像特征进行拼接,并联合用于回归三维人体形状与姿态。在标准基准数据集3DPW以及两个更具挑战性、包含多样相机视角和变化焦距的新数据集上,SPEC均显著优于现有方法。具体而言,我们构建了一个新的、高度逼真的合成数据集SPEC-SYN,其中包含真实三维人体的标注;同时,我们还创建了一个全新的真实场景数据集SPEC-MTP,该数据集包含相机标定信息与高质量参考人体模型。定性和定量分析均证实:在推理阶段引入相机参数,能够显著提升人体三维重建的准确性。相关代码与数据集已开放,供科研使用,详见:https://spec.is.tue.mpg.de。