
摘要
我们致力于解决开放世界的语义分割问题,该问题旨在学习对图像中的任意视觉概念进行分割,仅使用图像-文本对而无需密集注释。现有的开放世界分割方法通过利用对比学习(Contrastive Learning, CL)来学习多样化的视觉概念,并将所学的图像级理解转移到分割任务上,已经取得了令人印象深刻的进展。然而,这些基于CL的方法在训练和测试之间存在差异,因为它们在训练过程中仅考虑图像-文本对齐,而在测试时则需要区域-文本对齐。本文提出了一种新颖的基于文本的对比学习(Text-grounded Contrastive Learning, TCL)框架,使模型能够直接学习区域-文本对齐。我们的方法为给定的文本生成一个分割掩码,从掩码区域中提取基于文本的图像嵌入,并通过TCL将其与文本嵌入对齐。通过直接学习区域-文本对齐,我们的框架鼓励模型直接提升生成的分割掩码的质量。此外,为了进行严格且公平的比较,我们提出了一个统一的评估协议,涵盖了广泛使用的8个语义分割数据集。TCL在所有数据集中均以较大优势实现了最先进的零样本分割性能。代码可在https://github.com/kakaobrain/tcl 获取。