摘要
基于Transformer的弱监督语义分割(WSSS)方法因其强大的全局上下文建模能力而受到广泛关注。然而,由于自注意力机制中的激活函数仅能突出少数关键标记(token),现有方法仍面临注意力图稀疏的问题,导致生成的伪标签不完整。为此,本文提出一种新颖的类别激活机制,能够均匀地激活整个目标物体区域。该方法的核心思想是通过聚类形成的特征簇来引导物体区域的激活,其中特征簇由同一物体区域提取的相似图像特征融合而成。具体而言,我们设计了一种基于聚类的注意力模块,从中生成聚类引导的类别激活图(ClusterCAM),并利用该图中响应度较高的区域,在编码特征空间中激活目标物体。这一机制使模型能够借助来自同一物体的图像块(patch token)之间的语义相近性,充分探索目标物体的完整区域。基于此,我们构建了一个端到端的WSSS框架,可在单阶段内同步训练分类与分割网络。在多个基准数据集上的实验结果表明,所提方法显著优于以往的WSSS方法,包括多种多阶段方法。相关代码与模型已公开,详见:https://github.com/DCVL-WSSS/ClusterCAM。