
摘要
我们提出了一种简单而可靠的自底向上方法,能够在多人群体姿态估计问题中实现准确率与效率之间的良好权衡。给定一张图像,我们采用Hourglass网络同时推断所有人物的关节点(keypoints),并预测连接同一人物相邻关节点的引导偏移量(guiding offsets)。随后,我们利用预测的引导偏移量,通过贪心策略将候选关节点分组为多个可能的人体姿态(若存在)。我们将这一过程称为贪心引导偏移关节点分组(Greedy Offset-guided Keypoint Grouping, GOG)。此外,我们重新审视了多人群体关节点坐标的编码-解码方法,并揭示了一些影响模型精度的关键事实。实验结果表明,所引入的组件显著提升了整体性能。在公平比较条件下,我们的方法在具有挑战性的COCO数据集上达到了与当前最先进方法相当的水平。相关源代码及预训练模型已公开发布于网络。