11 天前

SemiVL:基于视觉-语言引导的半监督语义分割

Lukas Hoyer, David Joseph Tan, Muhammad Ferjad Naeem, Luc Van Gool, Federico Tombari
SemiVL:基于视觉-语言引导的半监督语义分割
摘要

在半监督语义分割任务中,模型利用少量标注图像与大量未标注图像进行训练,以降低高昂的标注成本。尽管以往方法能够在学习分割边界方面取得良好效果,但由于监督信号有限,仍容易因视觉外观相似而混淆类别。另一方面,视觉-语言模型(VLM)虽能从图像-文本数据集中学习丰富的语义知识,但因其基于图像级训练,生成的分割结果往往存在噪声。为此,我们提出SemiVL,旨在将VLM预训练过程中获得的丰富先验知识融入半监督语义分割,以学习更优的语义决策边界。为实现VLM从全局推理向局部推理的适应,我们引入一种空间微调策略,支持高效标签利用的学习。此外,我们设计了一种语言引导解码器,实现视觉与语言信息的联合推理。最后,为应对类别标签固有的模糊性,我们通过提供类别的语言定义作为指导,增强模型对语义的理解能力。我们在4个语义分割数据集上对SemiVL进行了评估,结果表明其显著优于现有半监督方法。例如,在COCO数据集上,仅使用232张标注图像时,SemiVL相较当前最优方法提升了+13.5 mIoU;在Pascal VOC数据集上,仅使用92个标注样本时,性能提升达+6.1 mIoU。项目主页:https://github.com/google-research/semivl

SemiVL:基于视觉-语言引导的半监督语义分割 | 最新论文 | HyperAI超神经