11 天前

基于Transformer的无监督语义分割中对象掩码的发现

Wouter Van Gansbeke, Simon Vandenhende, Luc Van Gool
基于Transformer的无监督语义分割中对象掩码的发现
摘要

无监督语义分割的任务旨在将图像中的像素聚类为具有语义意义的组别。具体而言,被分配至同一簇的像素应共享高层语义属性,例如属于同一类物体或其组成部分。本文提出了一种名为MaskDistill的新框架,用于无监督语义分割,其核心基于三个关键思想。首先,我们倡导一种数据驱动的方法,用于生成物体掩码,作为语义分割中像素分组的先验信息。该方法摒弃了人工设计的先验,而这类先验通常针对特定场景结构设计,限制了现有方法在不同场景下的泛化能力。其次,MaskDistill通过聚类生成的物体掩码,获得用于训练初始物体分割模型的伪真值标签。第三,我们利用该初始模型对低质量的物体掩码进行过滤。这一策略有效降低了像素分组先验中的噪声,从而获得一组高质量的掩码集合,用于训练最终的分割模型。通过整合上述组件,我们在PASCAL数据集上实现了mIoU提升11%,在COCO数据集上实现mask AP50提升4%,显著优于以往方法。有趣的是,与现有方法不同,本框架不依赖低层图像特征,且不受限于以物体为中心的数据集。相关代码与模型将对外公开。

基于Transformer的无监督语义分割中对象掩码的发现 | 最新论文 | HyperAI超神经