2 个月前

仅从图像-文本对学习生成文本引导的掩码以实现开放世界的语义分割

Junbum Cha; Jonghwan Mun; Byungseok Roh

摘要

我们致力于解决开放世界的语义分割问题，该问题旨在学习对图像中的任意视觉概念进行分割，仅使用图像-文本对而无需密集注释。现有的开放世界分割方法通过利用对比学习（Contrastive Learning, CL）来学习多样化的视觉概念，并将所学的图像级理解转移到分割任务上，已经取得了令人印象深刻的进展。然而，这些基于CL的方法在训练和测试之间存在差异，因为它们在训练过程中仅考虑图像-文本对齐，而在测试时则需要区域-文本对齐。本文提出了一种新颖的基于文本的对比学习（Text-grounded Contrastive Learning, TCL）框架，使模型能够直接学习区域-文本对齐。我们的方法为给定的文本生成一个分割掩码，从掩码区域中提取基于文本的图像嵌入，并通过TCL将其与文本嵌入对齐。通过直接学习区域-文本对齐，我们的框架鼓励模型直接提升生成的分割掩码的质量。此外，为了进行严格且公平的比较，我们提出了一个统一的评估协议，涵盖了广泛使用的8个语义分割数据集。TCL在所有数据集中均以较大优势实现了最先进的零样本分割性能。代码可在https://github.com/kakaobrain/tcl 获取。