HyperAIHyperAI

Command Palette

Search for a command to run...

FreeSeg:基于可解释对比语言-图像预训练的自由掩码用于语义分割

Yi Li Huifeng Yao Hualiang Wang Xiaomeng Li

摘要

全监督语义分割依赖于密集的掩码标注,这在封闭世界设定下需要高昂的标注成本。本文提出一种无需任何像素级标注、仅利用自然语言作为监督信号的开放世界语义分割方法。我们将其框架命名为FreeSeg,其核心思想是:从预训练模型的原始特征图中直接获取自由可用的掩码。与零样本或开放集分割方法相比,FreeSeg完全无需任何标注掩码,且能够广泛预测超出类别无关无监督分割范畴的语义类别。具体而言,FreeSeg通过可解释的对比语言-图像预训练(Interpretable Contrastive Language-Image Pretraining, ICLIP)所生成的图像-文本相似度图(Image-Text Similarity Map, ITSM)来获取免费掩码。本文的核心改进包括:针对密集ICLIP特征的平滑最小池化(smoothed min pooling),以及用于分割任务的局部标签(partial label)与像素级策略(pixel strategy)。此外,FreeSeg结构设计极为简洁,无需复杂的分组、聚类或检索机制。在保持极简设计的同时,FreeSeg在性能上显著超越此前的最先进方法。例如,在相同实验设置下,其在PASCAL VOC数据集上的mIoU指标提升高达13.4%。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供