6 个月前

摘要

无监督域自适应（Unsupervised Domain Adaptation, UDA）旨在利用源域中的标注数据来解决目标域中无标注数据的任务，但通常受限于源域与目标域之间显著的域差异。传统的基于卷积神经网络（CNN）的方法难以充分捕捉复杂的域间关系，促使研究转向视觉Transformer架构，例如Swin Transformer，其在建模局部与全局依赖关系方面表现出色。本文提出一种基于Swin Transformer的新型UDA方法，包含三个核心模块。首先，图域判别器（Graph Domain Discriminator）通过图卷积捕捉像素间的相互关系，并结合基于熵的注意力机制实现域间差异的精细化区分，从而增强域对齐效果。其次，自适应双注意力模块（Adaptive Double Attention）融合窗口注意力（Window Attention）与移位窗口注意力（Shifted Window Attention），并引入动态重加权机制，有效对齐长程与局部特征。最后，跨特征变换模块（Cross-Feature Transform）对Swin Transformer的块结构进行改进，提升模型在不同域间的泛化能力。大量实验基准测试表明，所提方法在多个任务上均达到当前最优性能，且无需引入任务特定的对齐模块，充分验证了其在多样化应用场景中的强适应性与通用性。

源 PDF