8 个月前

摘要

近年来，单目3D人体姿态估计取得了显著进展。大多数方法专注于单个人体，即在以目标人物中心为基准的人体中心坐标系中估计姿态。因此，这些方法不适用于多人体3D姿态估计，后者需要绝对坐标（例如，相机坐标）。此外，多人体姿态估计比单个人体姿态估计更具挑战性，因为存在人际遮挡和紧密的人际互动。现有的自上而下的多人体方法依赖于人体检测（即自上而下方法），因此容易受到检测错误的影响，在多人场景中无法产生可靠的姿态估计。同时，现有的不使用人体检测的自下而上的方法虽然不受检测错误的影响，但由于它们同时处理场景中的所有人，因此容易出错，特别是在处理小尺度人物时。为了应对所有这些挑战，我们提出将自上而下和自下而上的方法结合起来，以发挥各自的优势。我们的自上而下网络从图像块中的所有人而不是单一人物来估计关节位置，从而对可能的错误边界框具有更强的鲁棒性。我们的自下而上网络结合了基于人体检测的归一化热图（normalized heatmaps），使得网络在处理尺度变化时更加稳健。最后，来自自上而下和自下而上网络的3D姿态估计结果被输入到我们的集成网络中进行最终的3D姿态输出。为了弥补训练数据和测试数据之间的常见差距，我们在测试阶段进行了优化，通过高阶时间约束、重投影损失和骨骼长度正则化来精炼估计的3D人体姿态。我们的评估结果证明了所提方法的有效性。代码和模型可在以下地址获取：https://github.com/3dpose/3D-Multi-Person-Pose。

源 PDF 查看代码