
摘要
本文专注于从单个RGB图像中回归多个3D人体模型。现有的方法大多遵循一个多阶段流程,首先检测出图像中的人体边界框,然后独立地回归每个边界框内的3D身体网格。相比之下,我们提出了一种一次性回归多个3D人体模型的所有网格的方法(简称ROMP)。该方法在概念上简单,无需边界框,并且能够以端到端的方式学习每个像素的表示。我们的方法同时预测一个身体中心热图和一个网格参数图,这两个图可以联合描述像素级别的3D身体网格。通过一个以身体中心为引导的采样过程,可以从网格参数图中轻松提取图像中所有人的身体网格参数。借助这种细粒度的表示,我们的单阶段框架摆脱了复杂的多阶段流程,并且对遮挡更加鲁棒。与现有最先进方法相比,ROMP在具有挑战性的多人基准测试中表现出色,包括3DPW和CMU全景数据集(CMU Panoptic)。在拥挤/遮挡数据集上的实验表明,该方法在各种类型的遮挡下均具有较强的鲁棒性。发布的代码是首个实时实现的单目多人3D网格回归系统。