
摘要
近年来,基于深度学习的三维人体姿态与网格重建方法大多从输入图像中回归人体网格模型(如SMPL和MANO)的姿态与形状参数。这类方法存在两个主要缺陷:其一,由于训练数据通常来自受控环境(如实验室),而测试数据则来自真实场景(in-the-wild),导致图像外观域存在显著差异,即“外观域差距”问题;其二,姿态参数的估计面临挑战,主要源于三维旋转表示所带来的固有难题。为克服上述问题,本文提出Pose2Mesh——一种基于图卷积神经网络(GraphCNN)的新方法,直接从二维人体姿态预测三维人体网格顶点的坐标。以二维人体姿态作为输入,不仅能够提供关键的人体关节运动信息,而且二维姿态在不同域之间具有相对一致的几何特性,有效缓解了域差异问题。此外,所提出的系统通过分阶段(粗到精)的图卷积网络结构,充分挖掘网格拓扑结构信息,同时规避了三维旋转表示带来的复杂性。实验结果表明,Pose2Mesh在多个基准数据集上均显著优于现有的三维人体姿态与网格重建方法。代码已开源,详见:https://github.com/hongsukchoi/Pose2Mesh_RELEASE。