
摘要
我们致力于解决仅通过单目RGB输入图像来估计双手全局3D关节位置这一具有挑战性的任务。为此,我们提出了一种基于多阶段卷积神经网络的新颖管道,该管道能够在两只手之间存在遮挡以及复杂背景噪声的情况下准确分割和定位手部,并且无需任何深度信息即可估计2D和3D规范关节位置。利用手部姿态估计和关键骨骼的实际长度,通过一种新颖的投影算法计算出相对于相机原点的全局关节位置。为了训练这些卷积神经网络以完成新任务,我们引入了一个大规模的合成3D手部姿态数据集。实验结果表明,我们的系统在仅使用RGB信息的情况下,在3D规范手部姿态估计基准数据集上的表现优于以往的工作。此外,我们还首次实现了仅使用RGB输入对双手进行精确的全局3D手部跟踪,并提供了广泛的定量和定性评估。