2 个月前
FreeSeg:统一、通用和开放词汇的图像分割
Jie Qin; Jie Wu; Pengxiang Yan; Ming Li; Ren Yuxi; Xuefeng Xiao; Yitong Wang; Rui Wang; Shilei Wen; Xin Pan; Xingang Wang

摘要
近年来,开放词汇学习(open-vocabulary learning)在实现任意类别文本描述的分割方面崭露头角,这使得分割系统能够应用于更多的一般场景。然而,现有的方法主要致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致了各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了一种通用框架——FreeSeg,以实现统一、普遍和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个全能网络,并在推理过程中使用相同的架构和参数无缝处理多样化的分割任务。此外,自适应提示学习(adaptive prompt learning)有助于统一模型捕捉任务感知和类别敏感的概念,提高了模型在多任务和不同场景中的鲁棒性。大量的实验结果表明,FreeSeg在三个分割任务的性能和泛化能力上建立了新的最先进水平,对于COCO数据集中未见过的类别,其表现显著优于最佳的任务专用架构:语义分割任务上的mIoU提高了5.5%,实例分割任务上的mAP提高了17.6%,全景分割任务上的PQ提高了20.1%。