
摘要
在过去的五年中,卷积神经网络(CNNs)在语义分割任务上取得了显著进展,这一任务是许多应用(如自动驾驶)的核心之一。然而,训练卷积神经网络需要大量的数据,这些数据不仅难以收集,而且标注过程也非常繁琐。近年来,计算机图形学的进步使得可以在具有计算机生成标注的逼真合成图像上训练卷积神经网络成为可能。尽管如此,真实图像与合成数据之间的域差异仍然严重影响了模型的性能。因此,我们提出了一种课程式学习方法,以最小化城市景观语义分割中的域差距。该课程域适应方法首先解决简单任务,以推断目标域的必要属性;具体而言,第一个任务是学习图像上的全局标签分布以及地标超像素上的局部标签分布。这些属性易于估计,因为城市场景的图像具有很强的独特性(例如建筑物、街道、汽车等的大小和空间关系)。随后,我们在训练分割网络时对其在目标域中的预测进行正则化处理,使其遵循所推断出的属性。实验结果表明,我们的方法在两个数据集和两个骨干网络上均优于基线方法。我们还报告了关于该方法的广泛消融研究。