
摘要
先前的无监督域自适应(Unsupervised Domain Adaptation, UDA)方法通常旨在训练一个域不变的特征提取器,但这可能限制模型学习足够判别性特征的能力。为应对这一问题,一系列基于提示学习(prompt learning)的方法利用大规模预训练视觉-语言模型的强大能力,通过一组领域无关(domain-agnostic)与领域特定(domain-specific)的可学习提示(learnable prompts),同时学习域不变特征与域特定特征。这类研究通常在表示空间、输出空间或提示空间中施加不变性约束,以学习有效的提示。相比之下,本文将UDA建模为一个多目标优化问题,其中每个目标由一个域损失(domain loss)表示。在此新框架下,我们提出对各目标的梯度进行对齐,以促进不同目标之间的共识。此外,为防止在微调该深度学习架构时出现过拟合,我们对这些梯度的范数施加惩罚。为实现上述目标,我们设计了一种实用的梯度更新策略,该策略适用于单源与多源UDA场景。实验结果表明,所提方法在多个视觉-语言模型自适应任务中均显著优于现有方法。代码实现已公开,地址为:https://github.com/VietHoang1512/PGA。