
摘要
无监督域自适应(Unsupervised Domain Adaptation, UDA)与域泛化(Domain Generalization, DG)使得在源域上训练的机器学习模型能够有效应用于未标注甚至未见过的目标域。由于以往的UDA&DG语义分割方法大多基于过时的网络架构,本文对近年来的先进模型架构进行了系统性评估,揭示了Transformer架构在该任务中的巨大潜力,并据此设计了专为UDA&DG任务优化的DAFormer网络。该网络通过三种训练策略有效避免对源域的过拟合:(1)稀有类别采样(Rare Class Sampling)缓解了模型对源域常见类别的偏差;(2)基于物体类别的ImageNet特征距离(Thing-Class ImageNet Feature Distance);以及(3)学习率预热(learning rate warmup),共同促进了从ImageNet预训练中迁移有效特征的能力。由于UDA&DG通常对GPU内存消耗较大,以往多数方法采用图像下采样或裁剪处理。然而,低分辨率预测往往难以保留精细的分割细节,而使用裁剪图像训练的模型则在捕捉长程、域鲁棒的上下文信息方面表现不足。为此,本文提出HRDA——一种面向UDA&DG的多分辨率框架,该框架通过可学习的尺度注意力机制,融合小尺寸高分辨率裁剪以保留精细分割细节,以及大尺寸低分辨率裁剪以捕捉长程上下文依赖的优势。DAFormer与HRDA在五个不同基准测试上将当前最优的UDA&DG性能提升了超过10 mIoU,显著推动了该领域的技术进展。相关代码已开源,地址为:https://github.com/lhoyer/HRDA。