
摘要
在三维人体姿态估计中,最大的问题之一是缺乏大规模、多样化的数据集。这一问题在多人三维姿态估计中尤为突出,据我们所知,目前只有机器生成的注释可用于训练。为了解决这一问题,我们提出了一种可以在弱监督条件下利用额外的RGB-D图像进行训练的网络。由于廉价传感器的存在,带有深度图的视频广泛可用,我们的方法可以利用大量未标注的数据集。我们的算法是一种单目、多人、绝对姿态估计器。我们在多个基准上评估了该算法,结果显示其误差率有显著改善。此外,我们的模型在MuPoTS-3D数据集上取得了远超现有技术水平的结果。