
摘要
多人姿态估计在图像和视频中是一项重要而具有挑战性的任务,拥有广泛的应用。尽管卷积神经网络的发展极大地提升了人体姿态估计的性能,但在许多困难情况下,即使是最先进的模型也难以准确地定位所有身体关节。这激发了对额外精炼步骤的需求,以解决这些挑战性问题,并且可以轻松应用于任何现有方法之上。在本研究中,我们提出了一种姿态精炼网络(PoseRefiner),该网络同时接收图像和给定的姿态估计作为输入,并通过联合推理输入输出空间来直接预测一个更精确的姿态。为了使网络能够学习如何修正错误的身体关节预测,我们在训练过程中采用了新颖的数据增强方案,模拟“困难”的人体姿态情况。我们在四个流行的大型姿态估计基准数据集上评估了我们的方法,包括MPII单人和多人姿态估计、PoseTrack姿态估计和PoseTrack姿态跟踪,并报告了相对于现有最先进方法的系统性改进。