
摘要
语义分割和目标检测的研究最近取得了快速进展。然而,前者无法区分同一对象的不同实例,而后者则在粗糙的边界框级别上进行操作。我们提出了一种实例分割系统,该系统生成一个分割图,其中每个像素都被分配了一个对象类别和实例身份标签。大多数方法都是通过调整目标检测器来生成分割结果而不是边界框。相比之下,我们的方法基于初始的语义分割模块,该模块将输出馈送到实例子网络中。这个子网络利用初始的类别级分割结果以及目标检测器的输出线索,在端到端条件随机场(CRF)中预测实例。我们模型的这一部分会动态实例化,以生成每幅图像中的不同数量的实例。我们的端到端方法不需要任何后处理,并且整体考虑了图像,而不是独立处理各个提议区域。因此,与一些相关工作不同的是,单个像素不能属于多个实例。此外,如我们在Pascal VOC和Cityscapes数据集上的最新结果显示(特别是在高交并比阈值下),实现了更为精确的分割效果。