
摘要
在无监督域自适应(Unsupervised Domain Adaptation, UDA)中的语义分割任务面临双重挑战:一方面源于源域与目标域之间的域偏移(domain shift),另一方面则源于不同域间类别体系(class taxonomy)的不一致。传统UDA研究通常假设源域与目标域具有相同的类别体系,这一假设限制了模型在面对目标域类别体系变化时的识别与适应能力。本文提出一种新方法——基于视觉语言模型的不一致类别体系跨域语义分割(Cross-Domain Semantic Segmentation on Inconsistent Taxonomy using Vision Language Models, CSI),能够在源域与目标域类别不匹配的情况下,依然实现有效的域自适应语义分割。CSI方法充分利用视觉语言模型(Vision Language Models, VLMs)所具备的语义泛化能力,与现有UDA方法形成协同效应。具体而言,该方法结合传统UDA方法生成的分割推理结果,以及VLM中蕴含的丰富语义知识,对目标域中的新类别进行自动重标注。这一机制使得模型能够在无需目标域任何真实标签(ground truth label)的情况下,有效适应扩展的类别体系。实验结果表明,CSI方法在多种存在类别体系不一致设置(包括粗粒度到细粒度类别体系、开放类别体系)的基准测试中均展现出优异性能,并且在与现有最先进UDA方法集成时,均表现出稳定且一致的协同增益效果。相关代码已开源,地址为:http://github.com/jkee58/CSI。