
摘要
在近期计算机视觉和机器人应用的推动下,恢复三维人体姿态变得越来越重要,并吸引了越来越多的关注。事实上,完成这一任务极具挑战性,原因在于单目图像中存在多样的外观、视角、遮挡以及固有的几何模糊性。现有的大多数方法集中于设计一些复杂的先验/约束(priors/constraints),以直接基于相应的人体姿态感知的二维特征或二维姿态预测来回归三维人体姿态。然而,由于用于训练的三维姿态数据不足以及二维空间与三维空间之间的域差距,这些方法在所有实际场景中的可扩展性有限(例如户外场景)。为了解决这一问题,本文提出了一种简单而有效的自监督校正机制,旨在从大量图像中学习人体姿态的所有内在结构。具体而言,所提出的机制包括两个对偶学习任务,即二维到三维的姿态转换和三维到二维的姿态投影,作为连接三维和二维人体姿态的一种“免费”自监督手段,以实现准确的三维人体姿态估计。二维到三维的姿态转换是指在序列依赖的时间上下文中,通过将姿态表示从二维域转换到三维域来顺序回归中间的三维姿态;而三维到二维的姿态投影则有助于通过保持三维姿态的二维投影与估计的二维姿态之间的几何一致性来细化中间的三维姿态。我们进一步将自监督校正机制应用于开发一种三维人体姿态机,该机器综合集成了二维空间关系、预测的时间平滑性和三维几何知识。广泛的评估表明,我们的框架在性能和效率方面优于所有对比的竞争方法。