
摘要
我们提出了一种基于类别级分割的实例级图像分割方法。具体而言,对于语义类别掩模中的每个像素,其对应的实例边界框通过深度全卷积回归网络进行预测。因此,该方法遵循与流行的先检测后分割方法不同的流程,后者首先预测实例的边界框,目前在实例分割中处于领先地位。我们展示了通过利用最先进的语义分割模型的优势,所提出的方法可以达到与先检测后分割方法相当甚至更好的结果。我们的贡献如下:(i)首先,我们提出了一种简单而有效的方法来实现语义实例分割。(ii)其次,我们在训练过程中提出了一种在线引导方法,这对于实现良好的语义类别分割和实例级分割性能至关重要。(iii)由于语义类别分割的性能对作为我们方法第二步的实例级分割有显著影响,我们训练了全卷积残差网络以获得最佳的语义类别分割精度。在PASCAL VOC 2012数据集上,我们获得了当前最好的平均交并比分数79.1%。(iv)我们还在实例级分割方面取得了最先进的结果。