
摘要
本文提出了一种新颖的端到端框架,该框架通过显式框检测(Explicit box Detection)进行多人姿态估计,称为ED-Pose。该框架统一了人类级别(全局)和关键点级别(局部)信息之间的上下文学习。与之前的单阶段方法不同,ED-Pose重新考虑了这一任务,将其视为两个具有统一表示和回归监督的显式框检测过程。首先,我们引入了一个从编码令牌中提取全局特征的人类检测解码器。它为后续的关键点检测提供了良好的初始化,使训练过程快速收敛。其次,为了引入关键点附近的上下文信息,我们将姿态估计视为一个关键点框检测问题,以学习每个关键点的框位置和内容。一个人类到关键点检测解码器采用了人类特征和关键点特征之间的交互学习策略,进一步增强了全局和局部特征的聚合。总体而言,ED-Pose在概念上简单且无需后处理和密集热图监督。与两阶段和单阶段方法相比,它展示了其有效性和高效性。值得注意的是,显式框检测在COCO数据集上将姿态估计性能提升了4.5个AP,在CrowdPose数据集上提升了9.9个AP。作为第一个完全端到端且采用L1回归损失的框架,ED-Pose首次在相同的骨干网络下超越了基于热图的自顶向下方法,在COCO数据集上提升了1.2个AP,并在CrowdPose数据集上达到了76.6个AP的最佳性能,而无需复杂的技巧。代码可在https://github.com/IDEA-Research/ED-Pose 获取。