
摘要
从单目图像或2D关节进行3D人体姿态估计是一个病态问题,因为存在深度模糊和遮挡关节的问题。我们认为,从单目输入进行3D人体姿态估计是一个逆问题,可能存在多个可行解。在本文中,我们提出了一种新颖的方法,可以从2D关节生成多个可行的3D姿态假设。与现有的基于单一高斯分布最小化均方误差的深度学习方法不同,我们的方法能够基于多模混合密度网络生成多个可行的3D姿态假设。实验结果表明,通过我们的方法从2D关节输入估计出的3D姿态在2D重投影中具有一致性,这支持了我们关于2D到3D逆问题存在多个解的观点。此外,我们在Human3.6M数据集上展示了最佳假设和多视图设置下的最先进性能,并通过在MPII和MPI-INF-3DHP数据集上的测试证明了模型的泛化能力。我们的代码可在项目网站上获取。