11 天前
EUDA:一种基于自监督视觉Transformer的高效无监督域自适应方法
Ali Abedi, Q. M. Jonathan Wu, Ning Zhang, Farhad Pourpanah

摘要
无监督域适应(Unsupervised Domain Adaptation, UDA)旨在缓解域偏移问题,即训练数据(源域)与测试数据(目标域)之间的分布差异。尽管已有多种模型被提出以应对该问题,近年来视觉Transformer(Vision Transformers, ViTs)在该领域展现出良好的性能。然而,ViTs结构复杂且可训练参数数量庞大,限制了其在实际应用中的部署。因此,亟需一种高效模型,不仅能够显著减少可训练参数,还能根据具体需求灵活调整模型复杂度,同时保持与现有先进方法相当的性能。为此,本文提出一种高效无监督域适应(Efficient Unsupervised Domain Adaptation, EUDA)框架。EUDA采用DINOv2——一种自监督学习的视觉Transformer——作为特征提取器,并在其后接一个简化的全连接层瓶颈结构,用于进一步优化特征表示,提升域适应能力。此外,EUDA引入一种协同域对齐损失(Synergistic Domain Alignment Loss, SDAL),该损失函数融合了交叉熵(Cross-Entropy, CE)与最大均值差异(Maximum Mean Discrepancy, MMD)损失,能够在最小化源域分类误差的同时,有效对齐源域与目标域的特征分布,实现更均衡的域适应。实验结果表明,EUDA在域适应任务中能够达到与当前最先进方法相媲美的性能,同时可训练参数数量显著减少,降幅介于42%至99.7%之间。这一优势充分展示了该模型在资源受限环境下的高效训练潜力。模型代码已开源,地址为:https://github.com/A-Abedi/EUDA。