7 天前

多实例姿态网络:重新思考自顶向下的姿态估计

Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi
多实例姿态网络:重新思考自顶向下的姿态估计
摘要

自上而下的人体姿态估计方法的一个关键假设是:输入的边界框内仅包含单一人体实例。这一假设在人群密集且存在遮挡的场景中往往导致性能下降。为此,本文提出一种新颖的解决方案,以克服该基本假设的局限性。我们提出的多实例姿态网络(Multi-Instance Pose Network, MIPNet)能够在一个给定的边界框内同时预测多个2D姿态实例。为此,我们设计了一种多实例调制模块(Multi-Instance Modulation Block, MIMB),该模块可自适应地为每个姿态实例调节通道维度上的特征响应,同时保持参数高效性。我们在COCO、CrowdPose和OCHuman三个基准数据集上验证了所提方法的有效性。具体而言,在CrowdPose测试集上达到70.0 AP,在OCHuman测试集上达到42.5 AP,相较于现有方法分别提升了2.4 AP和6.5 AP。当使用真实边界框进行推理时,MIPNet在COCO、CrowdPose和OCHuman验证集上分别相较HRNet提升了0.7 AP、0.9 AP和9.1 AP。值得注意的是,当仅使用数量较少但置信度较高的边界框时,HRNet在OCHuman数据集上的性能显著下降(下降5 AP),而MIPNet则表现出相对稳定的性能,仅下降1 AP,展现出更强的鲁棒性。

多实例姿态网络:重新思考自顶向下的姿态估计 | 最新论文 | HyperAI超神经