
摘要
利用图像级标签而非昂贵的像素级掩码进行弱监督实例分割的问题尚未得到充分研究。本文中,我们通过利用类别峰值响应来解决这一难题,使分类网络能够提取实例掩码。仅在图像标签的监督下,全卷积方式下的CNN分类器可以生成类别响应图,这些图在每个图像位置上指定了分类置信度。我们观察到,类别响应图中的局部最大值(即峰值)通常对应于每个实例内部的强视觉线索。受此启发,我们首先设计了一个过程,以促使类别响应图中峰值的出现。随后,这些出现的峰值被反向传播并有效映射到每个对象实例的高度信息区域,如实例边界。我们将上述从类别峰值响应生成的地图称为峰值响应图(Peak Response Maps, PRMs)。PRMs提供了精细详细的实例级表示,这使得即使使用一些现成的方法也能提取出实例掩码。据我们所知,这是首次报告针对具有挑战性的图像级监督实例分割任务的结果。大量实验表明,我们的方法不仅提升了弱监督点定位性能,还提高了语义分割的表现,并在PASCAL VOC 2012和MS COCO等流行基准测试中取得了最先进的结果。