
摘要
开放词汇分割是一项具有挑战性的任务,需要从一个开放的类别集合中对对象进行分割和识别。解决这一挑战的一种方法是利用多模态模型(如CLIP)在共享嵌入空间中提供图像和文本特征,从而弥合封闭词汇与开放词汇识别之间的差距。因此,现有的方法通常采用两阶段框架来处理该问题,首先输入数据通过掩码生成器,然后与预测的掩码一起通过CLIP模型。这一过程涉及多次从图像中提取特征,这不仅效率低下而且效果不佳。相比之下,我们提出了一种单阶段框架,使用共享的冻结卷积CLIP主干网络,这不仅显著简化了当前的两阶段流程,还显著提高了准确性和成本之间的权衡。所提出的FC-CLIP受益于以下观察结果:冻结的CLIP主干网络保留了开放词汇分类的能力,并且可以作为强大的掩码生成器;卷积CLIP对大于对比图像-文本预训练期间使用的输入分辨率具有良好的泛化能力。仅在COCO全景数据上进行训练并在零样本条件下测试时,FC-CLIP在ADE20K上的表现分别为26.8 PQ、16.8 AP和34.1 mIoU,在Mapillary Vistas上的表现为18.2 PQ和27.9 mIoU,在Cityscapes上的表现为44.0 PQ、26.8 AP和56.2 mIoU,分别优于先前技术+4.2 PQ、+2.4 AP、+4.2 mIoU(在ADE20K上)、+4.0 PQ(在Mapillary Vistas上)和+20.1 PQ(在Cityscapes上)。此外,FC-CLIP的训练和测试时间比相同先前技术快7.5倍和6.6倍,并且参数量减少了5.9倍。FC-CLIP还在各种开放词汇语义分割数据集上实现了新的最先进性能。代码地址:https://github.com/bytedance/fc-clip