
摘要
由于遮挡、模糊、光照变化以及尺度差异等因素,从单张图像中进行人体关键点检测是一项极具挑战性的任务。本文从三个方面着手解决该问题:设计一种高效的网络结构,提出三种有效的训练策略,并引入四种有益的后处理技术。首先,我们发现上下文信息在推理人体姿态及不可见关键点方面起着重要作用。受此启发,我们提出一种级联上下文混合器(Cascaded Context Mixer, CCM),该结构能够高效融合空间与通道维度的上下文信息,并逐步对其进行精细化优化。其次,为充分挖掘CCM的表征能力,我们提出一种基于大量未标注数据的困难负样本人体检测挖掘策略,以及一种联合训练策略,使CCM能够从海量且多样化的姿态数据中学习到更具判别性的特征。第三,我们引入多种亚像素级精修技术,用于对关键点预测结果进行后处理,以进一步提升检测精度。在MS COCO关键点检测基准上的大量实验表明,所提方法在性能上显著优于现有的代表性先进方法(SOTA)。单一模型的性能已达到与2018年COCO关键点检测挑战赛冠军相当的水平;而最终的集成模型则在该基准上创造了新的SOTA纪录。