
摘要
通过无监督域适应(UDA)进行场景分割,可以将从源合成数据中获得的知识转移到目标真实数据中,从而大幅减少目标域中手动像素级注释的需求。为了促进域不变特征的学习,现有方法通常通过简单复制和粘贴像素来混合源域和目标域的数据。然而,这些基本方法通常效果不佳,因为它们没有考虑混合布局与现实场景的对应程度。现实场景具有固有的布局。我们观察到,诸如人行道、建筑物和天空等语义类别在深度分布上表现出相对一致性,并且可以在深度图中清晰区分。基于这一观察结果,我们提出了一种深度感知框架,显式利用深度估计来混合类别,并以端到端的方式促进两个互补任务——即分割和深度学习。具体而言,该框架包含一个用于数据增强的深度引导上下文滤波器(Depth-guided Contextual Filter, DCF)和一个用于上下文学习的跨任务编码器。DCF 模拟了现实世界的布局,而跨任务编码器则进一步自适应地融合了两个任务之间的互补特征。此外,值得注意的是,一些公开数据集并未提供深度注释。因此,我们利用现成的深度估计网络生成伪深度图。大量实验表明,即使使用伪深度图,我们所提出的方法在两个广泛使用的基准测试中仍取得了具有竞争力的性能表现:GTA 到 Cityscapes 的 mIoU 为 77.7%,Synthia 到 Cityscapes 的 mIoU 为 69.3%。