
摘要
从单张图像中估计人体姿态是一个具有挑战性的问题,通常通过监督学习来解决。然而,对于许多人类活动而言,标注的训练数据尚不存在,因为3D注释需要专门的运动捕捉系统。因此,我们提出了一种无监督方法,该方法仅使用2D姿态数据进行训练即可预测单张图像中的3D人体姿态,而2D姿态数据可以通过众包获得并且已经广泛存在。为此,我们通过随机投影估计最可能的3D姿态,并使用归一化流(normalizing flows)对2D姿态进行似然估计。与以往工作不同的是,我们的方法不需要在训练数据集中对相机旋转设定强烈的先验假设,而是学习相机角度的分布,这显著提高了性能。此外,我们还通过首先将2D姿态投影到线性子空间来稳定高维3D姿态数据上的归一化流训练过程。在多个评估指标上,我们在基准数据集Human3.6M和MPI-INF-3DHP上超越了现有的最先进的无监督人体姿态估计方法。