2 个月前
UniHPE:通过对比学习实现统一的人体姿态估计
Jiang, Zhongyu ; Chai, Wenhao ; Li, Lei ; Zhou, Zhuoran ; Yang, Cheng-Yen ; Hwang, Jenq-Neng

摘要
近来,开发有效的多模态信息融合感知技术引起了越来越多的兴趣。这涉及将从不同来源获取的特征对齐,以实现更大数据集和约束条件下的高效训练,并充分利用每种模态所包含的丰富信息。2D 和 3D 人体姿态估计(HPE)是计算机视觉中的两个关键感知任务,具有众多下游应用,如动作识别、人机交互、目标跟踪等。然而,利用对比范式明确研究图像与 2D/3D 人体姿态之间相关性的实例仍然有限。在本文中,我们提出了一种统一的人体姿态估计管道 UniHPE,该管道在同一框架内对齐了所有三种模态的特征,即 2D 人体姿态估计、基于提升的 3D 人体姿态估计和基于图像的 3D 人体姿态估计。为了同时对齐超过两种模态,我们提出了一种新颖的基于奇异值的对比学习损失函数,该方法能够更好地对齐不同模态并进一步提升性能。在我们的评估中,UniHPE 在 Human3.6M 数据集上达到了显著的性能指标:MPJPE 50.5 毫米,在 3DPW 数据集上的 PAMPJPE 达到 51.6 毫米。我们提出的方法具有巨大的潜力,可以推动计算机视觉领域的发展并为各种应用做出贡献。