
摘要
语义类别可以分为物体(具有明确形状的对象,例如汽车、人物)和背景(无定形的背景区域,例如草地、天空)。尽管许多分类和检测研究主要集中在物体类别上,但对背景类别的关注较少。然而,背景类别同样重要,因为它们能够解释图像中的关键方面,包括:(1) 场景类型;(2) 可能存在的物体类别及其位置(通过上下文推理);(3) 场景的物理属性、材料类型和几何特性。为了在上下文中理解背景和物体,我们引入了COCO-Stuff数据集,该数据集为COCO 2017数据集中所有164,000张图像添加了91个背景类别的像素级注释。我们提出了一种基于超像素的高效背景注释协议,该协议利用了原有的物体注释。我们量化了该协议的速度与质量之间的权衡,并探讨了注释时间与边界复杂度之间的关系。此外,我们利用COCO-Stuff数据集分析了以下几点:(a) 背景和物体类别的重要性,从其表面覆盖面积以及在图像标题中被提及的频率来衡量;(b) 背景与物体之间的空间关系,突显出丰富的上下文关系使我们的数据集独具特色;(c) 现代语义分割方法在背景和物体类别上的性能表现,并探讨背景是否比物体更容易进行分割。