
摘要
密集场景中人物相互遮挡,使得区分个体并准确定位其姿态关键点变得极具挑战性。本文提出了一种名为上下文实例解耦(Contextual Instance Decoupling, CID)的新方法,构建了一种全新的多人姿态估计框架。与以往依赖人体边界框进行空间区分的策略不同,CID将图像中的每个人物解耦为多个具有实例感知能力的特征图,每个特征图专门用于推断特定个体的关键点位置。相较于边界框检测,CID具有可微性,且对检测误差具有更强的鲁棒性。通过将不同个体映射至独立的特征图,该方法能够有效隔离其他人物带来的干扰,并在超出边界框尺寸的更大尺度上挖掘上下文线索。实验结果表明,CID在密集场景下的姿态估计基准测试中,无论在精度还是效率方面均优于现有方法。例如,在CrowdPose数据集上,CID取得了71.3%的AP(Average Precision),较近期的单阶段方法DEKR提升5.6%,较自底向上的CenterAttention提升3.7%,较自顶向下的JC-SPPE提升5.3%。这一优势在广泛使用的COCO基准上同样得以保持。