摘要

图像实例分割的标准方法是首先进行目标检测，然后从检测到的边界框中分割出目标。最近，像Mask R-CNN这样的深度学习方法实现了这两者的联合处理。然而，很少有研究考虑到“人类”这一类别的独特性，该类别可以通过姿态骨架来很好地定义。此外，与使用边界框相比，人类的姿态骨架可以更好地区分严重遮挡的实例。在本文中，我们提出了一种全新的基于姿态的人类实例分割框架，该框架根据人体姿态而非提议区域检测来分离实例。我们证明了我们的基于姿态的框架在人类实例分割问题上比最先进的基于检测的方法具有更高的准确性，并且能够更好地处理遮挡问题。此外，目前公开的数据集中包含大量严重遮挡的人类及其全面注释的情况较少，这使得这一问题很少受到研究人员的关注。因此，在本文中我们介绍了一个新的基准数据集“遮挡人类（OCHuman）”，该数据集专注于包含边界框、人体姿态和实例掩码在内的全面注释的遮挡人类。该数据集包含4731张图像中的8110个详细注释的人体实例。每个人平均最大交并比（MaxIoU）为0.67，OCHuman是迄今为止最复杂且最具挑战性的人体实例分割数据集。通过这个数据集，我们希望强调遮挡作为研究人员需要关注的一个重要问题。

源 PDF 查看代码