8 个月前

摘要

理解人类如何与世界互动需要精确的三维手部姿态估计，这一任务因手部的高度关节灵活性、频繁的遮挡、自遮挡以及快速运动而变得复杂。尽管大多数现有方法依赖于单张图像输入，但视频中包含有用的信息，有助于解决上述问题。然而，现有的基于视频的三维手部数据集尚不足以训练前馈模型以适应真实场景。另一方面，我们拥有大量的人体动作捕捉数据集，其中也包括手部动作，例如AMASS（A Multimodal Approach to Motion and Surface Capture）。因此，我们开发了一种专门针对手部的生成式运动先验模型，并在AMASS数据集上进行了训练，该数据集包含了多样且高质量的手部动作。随后，我们采用潜在优化方法将这种运动先验应用于基于视频的三维手部运动估计。我们对鲁棒性运动先验的整合显著提升了性能，特别是在遮挡场景中。该方法能够产生稳定且时间连贯的结果，超越了传统的单帧方法。我们通过HO3D和DexYCB数据集上的定性和定量评估展示了该方法的有效性，并特别关注了HO3D中的一个专注于遮挡的子集。代码可在以下网址获取：https://hmp.is.tue.mpg.de

源 PDF 查看代码