
摘要
在这项工作中,我们建立了RGB图像与基于表面的人体表示之间的密集对应关系,这一任务我们称之为密集人体姿态估计。首先,通过引入一种高效的注释管道,我们在COCO数据集中收集了50,000个人的密集对应关系。然后,利用我们的数据集训练基于CNN的系统,以在“野外”环境中提供密集对应关系,即在存在背景、遮挡和尺度变化的情况下。为了提高训练集的有效性,我们训练了一个“修复”网络,该网络可以填补缺失的真实值,并报告了相对于过去最佳结果的显著改进。我们对全卷积网络和基于区域的模型进行了实验,观察到后者具有优势;通过级联进一步提高了精度,最终获得了一个能够在实时环境中提供高精度结果的系统。补充材料和视频可在项目页面http://densepose.org上获取。