17 天前
InsPose:面向单阶段多人姿态估计的实例感知网络
Dahu Shi, Xing Wei, Xiaodong Yu, Wenming Tan, Ye Ren, Shiliang Pu

摘要
多人姿态估计是一项极具吸引力且富有挑战性的任务。现有的方法大多基于两阶段框架,包括自顶向下和自底向上两类方法。两阶段方法要么因引入额外的人体检测器而导致计算冗余,要么在预测所有与实例无关的关键点后,需通过启发式策略进行关键点分组。单阶段范式旨在简化多人姿态估计的流程,近年来受到广泛关注。然而,近期的单阶段方法受限于从单一特征向量回归多种完整人体姿态的难度,导致性能较低。与以往依赖复杂启发式设计的解决方案不同,本文提出一种简单而高效的新方法,通过引入实例感知的动态网络实现突破。具体而言,我们设计了一个实例感知模块,能够针对每个实例自适应地调整(部分)网络参数。该方法显著提升了网络在识别多样化姿态时的表达能力与适应性,同时保持了紧凑的端到端可训练架构。在MS-COCO数据集上的大量实验表明,所提方法在性能上显著超越现有单阶段方法,并在准确率与效率之间实现了优于当前最优两阶段方法的平衡。代码与模型已开源,地址为:\url{https://github.com/hikvision-research/opera}。