
摘要
当前基于图像级别标签的弱监督语义分割(Weakly-Supervised Semantic Segmentation, WSSS)最先进方法在驾驶场景数据集(如Cityscapes)上表现出严重的性能退化。为应对这一挑战,我们提出了一种专为驾驶场景数据集设计的新颖WSSS框架。通过对数据集特性的深入分析,我们以对比语言-图像预训练模型(Contrastive Language-Image Pre-training, CLIP)作为基础模型,生成伪掩码(pseudo-masks)。然而,CLIP引入了两个关键问题:(1)其生成的伪掩码难以有效表征小物体类别;(2)这些掩码中存在显著噪声。针对上述问题,我们分别提出以下解决方案:(1)设计了全局-局部视图训练(Global-Local View Training)策略,在模型训练过程中无缝融合小尺度图像块,从而显著提升模型对驾驶场景中尺寸小但关键物体(如交通信号灯)的建模能力;(2)提出一种新颖的一致性感知区域平衡机制(Consistency-Aware Region Balancing, CARB),通过评估CLIP生成的伪掩码与分割预测结果之间的一致性,识别出可靠区域与噪声区域,并基于自适应损失加权机制,优先优化可靠像素,抑制噪声干扰。实验结果表明,所提方法在Cityscapes测试集上达到了51.8%的mIoU,展现出其作为驾驶场景WSSS任务强基准模型的巨大潜力。此外,在CamVid和WildDash2数据集上的广泛实验进一步验证了该方法在多种数据集、小样本数据集以及视觉条件复杂场景下的有效性。代码已开源,地址为:https://github.com/k0u-id/CARB。