2 个月前

CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计

Li, Zhihao ; Liu, Jianzhuang ; Zhang, Zhensong ; Xu, Songcen ; Yan, Youliang
CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计
摘要

自上而下的方法在3D人体姿态和形状估计领域占据主导地位,因为它们与人体检测解耦,使研究人员能够专注于核心问题。然而,这些方法的第一步——裁剪,从一开始就丢弃了位置信息,导致无法准确预测原始相机坐标系统中的全局旋转。为了解决这一问题,我们提出了一种将完整帧中的位置信息(Carry Location Information in Full Frames, CLIFF)引入该任务的方法。具体而言,我们将裁剪图像特征与其边界框信息拼接在一起,以向CLIFF提供更多的整体特征。我们通过更宽广的全帧视角计算2D重投影损失,模拟图像中人物的投影过程。借助全局位置感知信息的输入和监督,CLIFF能够直接预测全局旋转,并生成更精确的关节姿态。此外,我们基于CLIFF提出了一种伪真实注释器,它为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了关键的全程监督。广泛的实验表明,在多个流行基准测试中,CLIFF显著优于先前的方法,并在AGORA排行榜(SMPL算法赛道)上取得了第一名的成绩。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/CLIFF 获取。

CLIFF:在完整帧中携带位置信息以进行人体姿态和形状估计 | 最新论文 | HyperAI超神经