
摘要
近年来,三维手部姿态估计方法取得了显著进展。然而,其估计精度在许多实际应用场景中仍远未达到理想水平,因此仍有巨大的提升空间。本文提出了一种名为TriHorn-Net的新模型,通过若干创新性设计显著提升了深度图像上的手部姿态估计精度。第一个创新在于将三维手部姿态估计任务分解为两个子任务:在深度图像空间(UV空间)中估计关节的二维位置,以及借助两个互补的注意力图来辅助估计对应深度值。该分解策略有效避免了难度更高的深度估计在预测过程和特征提取层面干扰UV坐标的估计。第二个创新是提出PixDropout,据我们所知,这是首个针对手部深度图像的基于外观的数据增强方法。实验结果表明,所提出的模型在三个公开基准数据集上均优于当前最先进的方法。代码实现已开源,地址为:https://github.com/mrezaei92/TriHorn-Net。