8 天前

DAFormer:面向域自适应语义分割的网络架构与训练策略优化

Lukas Hoyer, Dengxin Dai, Luc Van Gool
DAFormer:面向域自适应语义分割的网络架构与训练策略优化
摘要

由于为真实世界图像获取像素级语义分割标注是一项成本高昂的过程,因此可以采用更易获取的合成数据训练模型,并在无需真实图像标注的情况下将其适配至真实图像。这一过程在无监督域自适应(Unsupervised Domain Adaptation, UDA)领域中受到广泛研究。尽管已有大量方法提出新的适配策略,但这些方法大多基于过时的网络架构。由于近期网络架构在UDA中的影响尚未得到系统性评估,本文首先对多种网络架构在UDA任务中的性能进行了基准测试,并首次揭示了Transformer架构在UDA语义分割中的巨大潜力。基于上述发现,本文提出一种新型UDA方法——DAFormer。DAFormer的网络架构由一个Transformer编码器和一个多层级上下文感知特征融合解码器构成。该方法通过三种简单但至关重要的训练策略实现训练稳定性和对源域过拟合的抑制:(1)在源域上采用稀有类别采样(Rare Class Sampling),有效缓解自训练过程中对常见类别的确认偏见,从而提升伪标签质量;(2)引入物体类别图像Net特征距离(Thing-Class ImageNet Feature Distance),促进来自ImageNet预训练的特征迁移;(3)采用学习率预热(learning rate warmup)策略,进一步增强特征迁移能力。DAFormer在无监督域自适应语义分割任务中实现了显著性能提升,相较现有最优方法,其在GTA5→Cityscapes任务上提升了10.8 mIoU,在Synthia→Cityscapes任务上提升了5.4 mIoU,尤其在训练难度较高的类别(如火车、公交车和卡车)上也表现出优异的分割能力。相关代码已开源,可访问 https://github.com/lhoyer/DAFormer 获取实现。