2 个月前

开放词汇通用图像分割与MaskCLIP

Zheng Ding; Jieke Wang; Zhuowen Tu
开放词汇通用图像分割与MaskCLIP
摘要

本文研究了一个新兴的计算机视觉任务——开放词汇通用图像分割,该任务旨在在推理阶段对任意类别的基于文本描述进行语义/实例/全景分割(背景语义标注+前景实例分割)。我们首先通过直接采用预训练的CLIP模型而无需微调或蒸馏来构建基线方法。随后,我们开发了MaskCLIP,这是一种基于Transformer的方法,包含一个MaskCLIP视觉编码器,该编码器仅作为编码模块,能够无缝地将掩码标记与预训练的ViT CLIP模型结合,用于语义/实例分割和类别预测。MaskCLIP能够在MaskCLIP视觉编码器中高效且有效地利用预训练的部分/密集CLIP特征,从而避免耗时的学生-教师训练过程。在ADE20K和PASCAL数据集上,MaskCLIP在语义/实例/全景分割方面优于先前的方法。我们展示了在线自定义类别下MaskCLIP的定性示例。项目网站:https://maskclip.github.io。