
摘要
本文研究了仅使用图像级标签作为监督信号来学习图像语义分割网络的问题,该问题具有重要意义,因为它能够显著降低人工标注的工作量。近年来,该领域的先进方法首先利用深度分类网络推断出每类物体的稀疏且具有判别性的区域,随后以这些判别性区域作为监督信号来训练语义分割网络。受传统基于种子的区域生长(seeded region growing)图像分割方法的启发,本文提出一种新方法:从判别性区域出发训练语义分割网络,并通过基于种子的区域生长逐步扩展像素级监督信号。该种子区域生长模块被整合进深度分割网络中,能够充分利用深层特征。与传统深度网络采用固定/静态标签不同,所提出的弱监督网络能够利用图像内部的上下文信息动态生成新的标签。实验结果表明,该方法显著优于采用静态标签的弱监督语义分割方法,在PASCAL VOC 2012测试集上达到63.2%的mIoU得分,在COCO数据集上达到26.0%的mIoU得分,达到了当前最先进的性能水平。