
摘要
我们的目标是在图像中检测出某一类别的所有实例,并对每个实例标记出属于它的像素。我们称这一任务为同时检测与分割(Simultaneous Detection and Segmentation,简称SDS)。与传统的边界框检测不同,SDS不仅需要一个边界框,还需要进行分割。与传统的语义分割不同,我们要求识别单独的对象实例。我们在最近使用卷积神经网络对类别无关区域提案进行分类的工作(R-CNN [16])基础上进行了改进,引入了一种专为SDS设计的新架构。然后,我们利用类别特定的自上而下的前景背景预测来优化我们的自下而上的提案。实验结果表明,与基线方法相比,我们在SDS任务上取得了7个百分点的提升(相对提升16%),在语义分割任务上取得了5个百分点的提升(相对提升10%),并且在对象检测任务上达到了当前最佳性能。最后,我们提供了诊断工具,用于剖析性能并为未来的研究指明方向。