2 个月前
SemiCD-VL:视觉-语言模型引导下的半监督变化检测器
Kaiyu Li; Xiangyong Cao; Yupeng Deng; Jiayi Song; Junmin Liu; Deyu Meng; Zhi Wang

摘要
变化检测(Change Detection, CD)旨在识别图像之间具有语义变化的像素。然而,标注大量像素级别的图像是劳动密集型且成本高昂的,尤其是对于多时相图像,需要由专家进行逐像素比较。鉴于视觉语言模型(Visual Language Models, VLMs)在零样本、开放词汇等基于提示推理任务中的出色表现,利用VLMs在有限标注数据下改进CD方法具有很大的潜力。本文提出了一种基于VLM指导的半监督CD方法,命名为SemiCD-VL。SemiCD-VL的核心思想是利用VLMs生成免费的变化标签,为未标注数据提供额外的监督信号。然而,几乎所有的现有VLMs都是为单时相图像设计的,无法直接应用于双时相或多时相图像。为此,我们首先提出了一种基于VLM的混合变化事件生成(Change Event Generation, CEG)策略,以生成未标注CD数据的伪标签。由于这些由VLM驱动的伪标签提供的额外监督信号可能与一致性正则化范式(如FixMatch)生成的伪标签发生冲突,我们提出了双重投影头来解耦不同的信号源。此外,我们通过两个辅助分割解码器显式地解耦双时相图像的语义表示,这两个解码器也受到VLM的指导。最后,为了使模型更充分地捕捉变化表示,我们在辅助分支中引入了特征级对比损失进行度量感知监督。大量实验表明了SemiCD-VL的优势。例如,在WHU-CD和LEVIR-CD数据集上,仅使用5%的标签时,SemiCD-VL分别将FixMatch基线提高了+5.3 IoU和+2.4 IoU。此外,我们的CEG策略在无监督方式下可以实现远超当前最先进的无监督CD方法的性能。