
摘要
近期,研究者们致力于利用视觉Transformer(Vision Transformer, ViT)解决具有挑战性的无监督域自适应(Unsupervised Domain Adaptation, UDA)任务。现有方法通常直接采用ViT中的交叉注意力机制实现域间对齐,然而,由于交叉注意力的性能高度依赖于目标域样本的伪标签质量,当域间差异较大时,其效果显著下降。为此,本文从博弈论视角出发,提出名为PMTrans的新模型,通过引入一个中间域来连接源域与目标域,从而缓解域差距带来的负面影响。具体而言,本文提出一种基于ViT的新型模块——PatchMix,该模块通过基于博弈论模型学习从源域和目标域中采样图像块(patches),从而有效构建中间域的概率分布。PatchMix在训练过程中,一方面通过最大化交叉熵(Cross Entropy, CE)来学习融合源域与目标域的图像块;另一方面,利用特征空间与标签空间中的两种半监督Mixup损失来最小化该交叉熵。由此,我们将无监督域自适应过程建模为一个包含三个参与者的极小极大交叉熵博弈(min-max CE game):特征提取器、分类器与PatchMix模块,目标是寻找纳什均衡(Nash Equilibria)。此外,本文进一步利用ViT中的注意力图,根据每个图像块的重要性动态重加权其标签,从而提升模型对域判别性特征的捕捉能力。在四个基准数据集上的大量实验表明,PMTrans在性能上显著优于基于ViT和基于CNN的现有最先进(SoTA)方法,分别在Office-Home数据集上提升3.6%,在Office-31上提升1.4%,在DomainNet上提升高达17.7%。