
摘要
从单个深度图像中进行三维手部姿态估计是计算机视觉和人机交互领域的一个重要课题。尽管深度学习方法的兴起大幅提高了准确性,但由于人体手部结构的复杂性,这一问题仍然难以解决。现有的基于深度学习的方法要么丢失了手部结构的空间信息,要么缺乏对手部关节坐标的直接监督。在本文中,我们提出了一种新颖的像素级回归方法,该方法利用空间形式表示(Spatial-Form Representation, SFR)和可微解码器(Differentiable Decoder, DD)来解决这两个问题。为了应用我们的方法,我们构建了一个模型,在该模型中设计了一种特定的SFR及其相关的DD,将三维关节坐标分为平面坐标和深度坐标两部分,并分别使用名为平面回归(Plane Regression, PR)和深度回归(Depth Regression, DR)的两个模块来处理它们。我们进行了消融实验以展示所提出的方法比现有方法取得了更好的结果。此外,我们还探讨了不同的训练策略如何影响所学的SFR及最终结果。在三个公开数据集上的实验表明,我们的模型与现有的最先进模型相当,并且在一个数据集中,我们的模型可以将平均三维关节误差减少25%。