8 个月前

摘要

从单目图像中估计三维人体姿态已成为许多以人为中心的应用的关键步骤，因此受到了广泛关注。然而，基于大规模室内数据集监督训练的人体姿态估计模型的泛化能力仍值得怀疑，因为这些模型在未见过的野外环境中往往表现不佳。尽管已提出了一些弱监督模型来解决这一问题，但这些模型的性能依赖于某些相关任务（如二维姿态或多视角图像对）的配对监督数据。相比之下，我们提出了一种新颖的保持运动学结构的无监督三维姿态估计框架，该框架不受任何配对或非配对弱监督数据的限制。我们的姿态估计框架仅依赖于定义底层运动学三维结构的一组最小先验知识，例如固定规范尺度下的骨骼关节连接信息及骨长比例。所提出的模型采用了三个连续的不同可微变换，分别称为正向运动学、相机投影和空间映射变换。这种设计不仅作为合适的瓶颈层促进了有效的姿态解耦，还生成了可解释的潜在姿态表示，避免了显式训练从潜在嵌入到姿态映射的过程。此外，无需使用不稳定的对抗设置，我们重新利用了解码器来形式化能量损失函数，这使得我们能够从野外视频中学习而不仅仅局限于实验室环境。全面的实验表明，在Human3.6M和MPI-INF-3DHP数据集上，我们的方法在无监督和弱监督姿态估计方面达到了最先进的性能。在未见过的环境中的定性结果进一步证明了我们卓越的泛化能力。

源 PDF