
摘要
本文探讨了在自然环境中进行三维人体姿态估计的问题。一个显著的挑战是缺乏训练数据,即带有三维姿态注释的人体二维图像。这类数据对于训练最先进的卷积神经网络(CNN)架构是必需的。在此,我们提出了一种解决方案,用于生成大量具有三维姿态注释的高真实感合成图像。我们引入了一种基于图像的合成引擎,该引擎利用三维动作捕捉(MoCap)数据对带有二维人体姿态注释的真实图像数据集进行人工增强。给定一个候选的三维姿态,我们的算法为每个关节选择一张其二维姿态局部匹配投影后的三维姿态的图像。然后,所选图像通过在运动学约束下拼接局部图像块来生成新的合成图像。这些生成的图像被用于训练一个端到端的卷积神经网络,以实现全身三维姿态估计。我们将训练数据聚类成大量的姿态类别,并将姿态估计问题视为一个K分类问题。只有像我们这样的大型训练集才能使这种方法可行。我们的方法在受控环境(如Human3.6M数据集)中的三维姿态估计性能优于现有技术,并且在自然环境下的图像(如LSP数据集)中也显示出有希望的结果。这表明,在人工图像上训练的卷积神经网络可以很好地泛化到真实图像上。