摘要
人体实例分割是面向以人为中心的场景理解中的核心问题。由于人体在外观和形状上存在较大的类内差异,且常面临复杂的遮挡模式,因此对人体实例进行分割对视觉系统构成了独特挑战。本文提出了一种新型的姿势感知人体实例分割方法。与以往先自底向上预测姿态,再基于预测姿态进行实例分割的姿势感知方法不同,我们的方法融合了自顶向下与自底向上的双重线索:以目标检测结果作为人体候选区域(proposal),并联合估计每个候选区域的人体姿态与实例分割结果。为此,我们设计了一种模块化的循环深度网络,利用姿态估计信息以迭代方式逐步优化实例分割结果。该优化模块在两个层次上利用姿态线索:一是作为粗略的形状先验,二是作为局部肢体注意力机制。我们在两个公开的多人场景基准数据集——OCHuman数据集与COCOPersons数据集上对所提方法进行了评估。实验结果表明,该方法在OCHuman数据集上超越当前最优方法3.0 mAP,在COCOPersons数据集上提升6.4 mAP,充分验证了所提方法的有效性。