11 天前

ZegCLIP:面向零样本语义分割的CLIP适配

Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu
ZegCLIP:面向零样本语义分割的CLIP适配
摘要

近年来,CLIP通过两阶段框架被应用于像素级零样本学习任务。其基本思想是:首先生成与类别无关的区域建议(region proposals),随后将裁剪出的提议区域输入CLIP,利用其图像级别的零样本分类能力进行预测。尽管该方法有效,但其需要两个图像编码器——一个用于生成区域建议,另一个用于CLIP本身——导致整体流程复杂且计算开销较高。在本工作中,我们提出一种更简单高效的单阶段解决方案,直接将CLIP的零样本预测能力从图像级别扩展至像素级别。我们的研究始于一个基础的直接扩展方法:通过比较CLIP提取的文本嵌入与图像块(patch)嵌入之间的相似性,生成语义掩码。然而,这种范式容易对已见类别产生严重过拟合,难以泛化到未见类别。为解决这一问题,我们提出了三种简单但高效的改进设计,并发现这些设计能够显著保留CLIP固有的零样本能力,同时大幅提升像素级别的泛化性能。将这些改进整合后,我们构建了一个高效的零样本语义分割系统,命名为ZegCLIP。在三个公开基准数据集上的大量实验表明,ZegCLIP在“归纳”(inductive)与“直推”(transductive)两种零样本设置下均显著优于当前最先进的方法。此外,相较于两阶段方法,我们的单阶段ZegCLIP在推理阶段实现了约5倍的加速。相关代码已开源,地址为:https://github.com/ZiqinZhou66/ZegCLIP.git。

ZegCLIP:面向零样本语义分割的CLIP适配 | 最新论文 | HyperAI超神经