
摘要
在单目视频3D多人姿态估计中,人际遮挡和近距离互动可能导致人体检测出现错误,以及人体关节分组不可靠。现有的自上而下方法依赖于人体检测,因此容易受到这些问题的影响。现有的自下而上方法虽然不使用人体检测,但它们以相同的尺度同时处理所有人物,导致对多个人物尺度变化敏感。为了解决这些挑战,我们提出将自上而下和自下而上的方法结合起来,以发挥各自的优势。我们的自上而下网络从图像块中的所有人而不是单个人估计人体关节,从而对可能的错误边界框具有鲁棒性。我们的自下而上网络结合了基于人体检测的归一化热图(normalized heatmaps),使得网络在处理尺度变化时更加鲁棒。最后,来自自上而下和自下而上网络的估计3D姿态被输入到我们的集成网络中,生成最终的3D姿态。除了将自上而下和自下而上的网络进行集成外,与现有的仅针对单人的姿态判别器不同,这些判别器无法评估自然的人际互动,我们提出了一种双人姿态判别器(two-person pose discriminator),该判别器强制执行自然的双人互动。此外,我们还应用了一种半监督方法来克服3D地面真值数据稀缺的问题。我们的定量和定性评估表明,与现有最先进的基线方法相比,我们的方法更为有效。