
摘要
语义分割研究最近取得了快速进展,但许多领先的方法仍无法识别物体实例。在本文中,我们提出了一种用于实例感知语义分割的多任务网络级联(Multi-task Network Cascades)。我们的模型由三个网络组成,分别用于区分实例、估计掩码和分类物体。这些网络形成了一个级联结构,并设计为共享其卷积特征。我们开发了一种算法,用于这种因果级联结构的端到端训练,该算法具有非平凡性。我们的解决方案是一个简洁的单步训练框架,并且可以推广到具有更多阶段的级联结构。我们在PASCAL VOC数据集上展示了最先进的实例感知语义分割精度。同时,使用VGG-16模型测试一张图像仅需360毫秒,比之前解决这一难题的系统快两个数量级。作为副产品,我们的方法还实现了令人信服的目标检测结果,超过了具有竞争力的Fast/Faster R-CNN系统。本文所述方法是我们参加2015年MS COCO分割竞赛的基础,在该竞赛中我们获得了第一名。