
摘要
我们提出了一种名为DenseRaC的新颖端到端框架,用于从单目RGB图像中联合估计三维人体姿态与体形。该框架采用两阶段策略,以身体像素到表面对应关系图(即IUV图)作为代理表示,进而实现参数化人体姿态与体形的估计。具体而言,在获得估计的IUV图后,我们设计了一种深度神经网络,通过优化三维人体重建损失,并引入“渲染-对比”机制,最小化输入图像与渲染输出之间的差异,包括密集的人体关键点、身体部位掩码以及对抗性先验信息。为增强模型学习能力,我们进一步构建了一个大规模合成数据集MOCA,该数据集基于网络爬取的动捕序列、三维扫描数据与动画生成,涵盖多样化的相机视角、人体动作及体形特征,并配有完整的真值标注。我们的模型能够从混合数据集中联合学习三维人体的表示,有效缓解了训练数据未配对的问题。实验结果表明,DenseRaC在多个公开的人体相关任务基准测试中均显著优于现有最先进方法。