
摘要
我们研究从真实场景中的拥挤人群图像中恢复单个人体的三维网格(3D human mesh)问题。尽管三维人体网格估计领域已取得显著进展,但现有方法在处理包含密集人群的测试输入时仍表现不佳。其失败原因主要有两点:第一,训练数据与测试数据之间存在领域差异(domain gap)。目前常用的动捕(motion capture)数据集虽能提供精确的三维标签用于训练,但缺乏人群场景数据,导致模型难以学习到对拥挤场景具有鲁棒性的目标人物图像特征。第二,现有方法通常对包含多个人的局部边界框内的特征图进行空间平均处理,这种平均操作会使得目标人物的特征与其他人物特征混杂,难以区分。为此,我们提出3DCrowdNet,首次专门针对真实场景中的拥挤人群场景设计,并通过解决上述两个关键问题,实现对三维人体网格的鲁棒估计。首先,我们采用无需依赖带有三维标签的动捕数据集的二维人体姿态估计方法进行训练,从而避免了领域差异问题。其次,我们提出一种基于关键点(joint-based)的回归器,能够有效区分目标人物与其他人物的特征。该回归器通过从目标人物关键点位置采样特征,并据此回归人体模型参数,从而在保持目标人物空间激活特性的前提下,增强其特征的可辨识性。因此,3DCrowdNet能够学习到以目标人物为中心的聚焦特征,有效抑制邻近人物的无关特征干扰。我们在多个公开基准数据集上进行了实验,结果在定量与定性层面均验证了3DCrowdNet在真实拥挤场景下的卓越鲁棒性。代码已开源,地址为:https://github.com/hongsukchoi/3DCrowdNet_RELEASE。