2 个月前

基于图像嵌入平衡的开放词汇语义分割

Xiangheng Shan; Dongyue Wu; Guilin Zhu; Yuanjie Shao; Nong Sang; Changxin Gao
基于图像嵌入平衡的开放词汇语义分割
摘要

开放词汇语义分割是一项具有挑战性的任务,要求模型输出图像的语义掩码,而不仅仅是封闭词汇集内的类别。尽管已经有许多研究尝试利用强大的CLIP模型来完成这一任务,但由于训练类和新类之间存在自然的语义信息差距,这些方法仍然容易对训练类产生过拟合。为了解决这一挑战,我们提出了一种名为EBSeg的新框架,该框架结合了自适应平衡解码器(AdaB解码器)和语义结构一致性损失(SSC损失)。AdaB解码器旨在为训练类和新类生成不同的图像嵌入。随后,这两种类型的嵌入通过自适应平衡机制进行融合,以充分利用它们在识别训练类方面的能力和对新类的泛化能力。为了从CLIP中学习一致的语义结构,SSC损失将图像特征空间中的类别间亲和力与CLIP文本特征空间中的亲和力对齐,从而提高模型的泛化能力。此外,我们使用了一个冻结的SAM图像编码器来补充CLIP特征由于低分辨率训练图像和图像级监督所缺乏的空间信息。我们在多个基准数据集上进行了广泛的实验,结果表明所提出的EBSeg优于现有的最先进方法。我们的代码和预训练模型可在以下链接获取:https://github.com/slonetime/EBSeg。

基于图像嵌入平衡的开放词汇语义分割 | 最新论文 | HyperAI超神经