
摘要
本文研究了使用卷积神经网络(Convolutional Neural Networks, CNN)进行人体姿态估计的方法。我们的主要贡献是一种专门设计用于学习部位关系和空间上下文的CNN级联架构,该架构能够稳健地推断出即使在严重部位遮挡情况下的姿态。为此,我们提出了一种检测后回归的CNN级联模型。级联的第一部分输出部位检测热图,第二部分则对这些热图进行回归分析。所提出的架构具有多重优势:它引导网络关注图像中的特定区域,并有效地编码部位约束和上下文信息。更重要的是,它能有效应对遮挡问题,因为被遮挡部位的检测热图会提供较低的置信度分数,这进一步指导了网络的回归部分依赖于上下文信息来预测这些部位的位置。此外,我们展示了所提出的级联模型足够灵活,可以轻松集成各种用于检测和回归的CNN架构,包括基于残差学习的最新架构。最后,我们在MPII和LSP数据集上证明了该级联模型达到了顶级性能。代码可从以下网址下载:http://www.cs.nott.ac.uk/~psxab5/