6 个月前

摘要

无监督语义分割旨在无需人工标注的情况下，从低层视觉特征中获取高层语义表征。现有大多数方法采用自下而上的策略，基于像素的视觉线索或预设规则将其聚类为区域。然而，在包含多个物体且部分物体具有相似视觉外观的复杂场景中，这类自下而上的方法难以生成细粒度的语义分割结果。相比之下，本文提出首个面向极端复杂场景的自上而下式无监督语义分割框架，实现精细化分割。具体而言，我们首先通过自监督学习方式，从大规模视觉数据中提取丰富的高层结构化语义概念信息，并将其作为先验知识，用于发现目标数据集中潜在的语义类别；其次，利用所发现的高层语义类别，通过计算相对于特定语义表征的类别激活图（Class Activation Map, CAM），将高层语义映射至底层像素特征；最后，生成的CAM作为伪标签，用于训练分割模块并输出最终的语义分割结果。在多个语义分割基准上的实验结果表明，所提出的自上而下无监督分割方法在不同语义粒度下均对以物体为中心（object-centric）和以场景为中心（scene-centric）的数据集具有良好的鲁棒性，且显著优于当前所有先进的自下而上方法。代码已开源，地址为：\url{https://github.com/damo-cv/TransFGU}。

源 PDF