7 个月前

摘要

自下而上的人体姿态估计方法在预测小人物的正确姿态时存在困难，主要是由于尺度变化带来的挑战。本文提出了一种新的自下而上人体姿态估计方法——HigherHRNet，该方法通过高分辨率特征金字塔学习尺度感知表示。该方法在训练过程中采用了多分辨率监督，并在推理过程中进行了多分辨率聚合，从而能够解决自下而上多人姿态估计中的尺度变化问题，并更精确地定位关键点，特别是对于小人物。HigherHRNet 的特征金字塔由 HRNet 输出的特征图和通过转置卷积上采样的更高分辨率输出组成。在 COCO 测试开发集上，HigherHRNet 在中等人物的姿态估计方面比之前的最佳自下而上方法提高了 2.5% 的平均精度（AP），显示出其在处理尺度变化方面的有效性。此外，HigherHRNet 在不使用细化或其他后处理技术的情况下，在 COCO 测试开发集上达到了新的最先进水平（70.5% AP），超越了所有现有的自下而上方法。甚至在 CrowdPose 测试集上，HigherHRNet 也超过了所有自顶向下方法（67.6% AP），表明其在拥挤场景中的鲁棒性。代码和模型可在 https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation 获取。

源 PDF