7 个月前

摘要

语义类别可以分为物体（具有明确形状的对象，例如汽车、人物）和背景（无定形的背景区域，例如草地、天空）。尽管许多分类和检测研究主要集中在物体类别上，但对背景类别的关注较少。然而，背景类别同样重要，因为它们能够解释图像中的关键方面，包括：(1) 场景类型；(2) 可能存在的物体类别及其位置（通过上下文推理）；(3) 场景的物理属性、材料类型和几何特性。为了在上下文中理解背景和物体，我们引入了COCO-Stuff数据集，该数据集为COCO 2017数据集中所有164,000张图像添加了91个背景类别的像素级注释。我们提出了一种基于超像素的高效背景注释协议，该协议利用了原有的物体注释。我们量化了该协议的速度与质量之间的权衡，并探讨了注释时间与边界复杂度之间的关系。此外，我们利用COCO-Stuff数据集分析了以下几点：(a) 背景和物体类别的重要性，从其表面覆盖面积以及在图像标题中被提及的频率来衡量；(b) 背景与物体之间的空间关系，突显出丰富的上下文关系使我们的数据集独具特色；(c) 现代语义分割方法在背景和物体类别上的性能表现，并探讨背景是否比物体更容易进行分割。

源 PDF