17 天前

合成到真实场景语义分割中的全局与局部纹理随机化

Duo Peng, Yinjie Lei, Lingqiao Liu, Pingping Zhang, Jun Liu
合成到真实场景语义分割中的全局与局部纹理随机化
摘要

语义分割是一项关键的图像理解任务,其目标是将图像中的每个像素分类到相应的语义标签中。由于真实标注(ground-truth)的像素级标注过程繁琐且耗时,实际应用中,许多方法采用合成图像来训练模型,以实现对真实世界图像的语义分割,即合成到真实(Synthetic-to-Real Semantic Segmentation, SRSS)任务。然而,基于源端合成数据训练的深度卷积神经网络(Deep Convolutional Neural Networks, CNNs)往往难以有效泛化至目标端的真实世界数据。为此,本文提出两种简单但高效的纹理随机化机制——全局纹理随机化(Global Texture Randomization, GTR)与局部纹理随机化(Local Texture Randomization, LTR),用于提升基于领域泛化(Domain Generalization)的SRSS性能。GTR旨在将源图像的纹理随机化为多样化的非真实风格,以降低网络对纹理特征的依赖,同时促进模型学习跨域不变的语义线索。此外,我们观察到纹理差异并非总是存在于整幅图像,而可能仅局限于某些局部区域。因此,进一步提出LTR机制,通过生成多样化的局部区域,对源图像进行部分风格化处理,从而更精细地模拟真实场景中的纹理变化。为协调两种机制在训练过程中的协同作用,我们设计了一种一致性正则化策略——GTR与LTR之间的一致性正则化(Consistency between GTR and LTR, CGL),以增强模型对不同纹理扰动的鲁棒性。在五个公开可用数据集(GTA5、SYNTHIA、Cityscapes、BDDS和Mapillary)上,针对多种SRSS设置(如GTA5/SYNTHIA到Cityscapes/BDDS/Mapillary)的大量实验表明,所提方法在领域泛化能力方面显著优于当前最先进的SRSS方法,验证了其有效性与优越性。