2 个月前

从CLIP中提取自由密集标签

Chong Zhou; Chen Change Loy; Bo Dai
从CLIP中提取自由密集标签
摘要

对比语言-图像预训练(CLIP)在开放词汇零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别的分类和操作。本文旨在探讨CLIP在像素级密集预测,特别是语义分割方面的内在潜力。为此,我们通过最小的修改展示了MaskCLIP在缺乏注释和微调的情况下,在多个数据集上对开放概念产生了令人信服的分割结果。通过添加伪标签和自训练,MaskCLIP+大幅超越了现有的最佳传递式零样本语义分割方法,例如,在PASCAL VOC/PASCAL Context/COCO Stuff数据集上,未见过的类别的平均交并比(mIoU)从35.6/20.7/30.3提高到了86.1/66.7/54.7。我们还测试了MaskCLIP在输入损坏情况下的鲁棒性,并评估了其在区分细粒度对象和新颖概念方面的能力。我们的研究结果表明,MaskCLIP可以作为密集预测任务中的一种新的可靠监督来源,实现无需注释的分割。源代码可在https://github.com/chongzhou96/MaskCLIP 获取。