
摘要
人体姿态估计和语义部位分割是计算机视觉中的两个互补任务。本文提出了一种针对自然多人体图像同时解决这两个任务的方法,其中估计的姿态为部位分割提供了对象级别的形状先验,而部位级别的分割则限制了姿态位置的变化。具体而言,我们首先训练两个全卷积神经网络(FCNs),即姿态FCN和部位FCN,以提供姿态关节潜在位置和语义部位潜在区域的初始估计。然后,为了精化姿态关节的位置,我们将这两种潜在位置融合到一个全连接条件随机场(FCRF)中,在该随机场中引入了一种新的段-关节平滑项,以促进部位和关节之间的语义和空间一致性。为了精化部位分割,我们将精化后的姿态与原始的部位潜在区域通过一个部位FCN进行整合,其中来自姿态的骨架特征作为额外的正则化线索用于部位分割。最后,为了降低FCRF的复杂度,我们引入了人体检测框并在每个框内推断图结构,从而使推理速度提高了四十倍。由于没有包含部位分割和姿态标签的数据集,我们扩展了PASCAL VOC部分数据集并添加了人体姿态关节,并进行了广泛的实验来对比我们的方法与几种最新的策略。结果显示,在该数据集中,我们的算法在这两个任务上均大幅超越了竞争方法。