
摘要
图像分割通常通过训练模型来解决固定对象类别的问题。后期增加新的类别或更复杂的查询代价高昂,因为需要在包含这些表达的数据集上重新训练模型。本文提出了一种系统,该系统能够在测试时根据任意提示生成图像分割。提示可以是文本或图像。这种方法使我们能够创建一个统一的模型(仅需一次训练),以应对三种常见的分割任务,这些任务各自带有不同的挑战:指代表达分割、零样本分割和单样本分割。我们基于CLIP模型作为主干,并扩展了一个基于Transformer的解码器,以实现密集预测。在扩展版PhraseCut数据集上训练后,我们的系统可以根据自由文本提示或附加的表示查询的图像生成二值分割图。我们详细分析了后者基于图像的提示的不同变体。这种新颖的混合输入不仅允许动态适应上述三种分割任务,还适用于任何可以通过文本或图像查询表述的二值分割任务。最后,我们发现该系统对涉及功能或属性的泛化查询也具有良好的适应性。代码可在 https://eckerlab.org/code/clipseg 获取。