2 个月前

级联金字塔网络用于多人姿态估计

Yilun Chen; Zhicheng Wang; Yuxiang Peng; Zhiqiang Zhang; Gang Yu; Jian Sun
级联金字塔网络用于多人姿态估计
摘要

近年来,多人姿态估计领域取得了显著进展,尤其是随着卷积神经网络的发展。然而,仍有许多具有挑战性的情况尚未得到有效解决,例如被遮挡的关键点、不可见的关键点以及复杂的背景。在本文中,我们提出了一种新的网络结构——级联金字塔网络(Cascaded Pyramid Network, CPN),旨在缓解这些“难”关键点带来的问题。具体而言,我们的算法包括两个阶段:GlobalNet 和 RefineNet。GlobalNet 是一种特征金字塔网络,能够成功定位诸如眼睛和手等“简单”关键点,但在精确识别被遮挡或不可见的关键点方面可能表现不佳。RefineNet 则通过整合来自 GlobalNet 的所有层级的特征表示,并结合在线难关键点挖掘损失函数,显式地处理这些“难”关键点。总体而言,为了解决多人姿态估计问题,我们采用了自上而下的流程:首先基于检测器生成一组人体边界框,然后使用我们的 CPN 对每个边界框中的关键点进行定位。根据所提出的算法,在 COCO 关键点基准测试中,我们在 COCO test-dev 数据集上的平均精度达到了 73.0,在 COCO test-challenge 数据集上的平均精度达到了 72.1,相比 COCO 2016 关键点挑战赛的 60.5 提高了 19% 的相对性能。代码(https://github.com/chenyilun95/tf-cpn.git)和检测结果已公开发布,供进一步研究使用。