
摘要
无监督域自适应(Unsupervised Domain Adaptation, UDA)旨在通过利用一个带有标签的源域数据集,并将其知识迁移至一个相似但不同的目标域数据集,从而克服数据标注过程繁琐的问题。与此同时,当前的视觉-语言模型展现出卓越的零样本预测能力。在本工作中,我们结合了UDA所获得的知识与视觉-语言模型固有的先验知识,提出了一种强-弱引导学习机制,利用零样本预测结果来促进源域与目标域之间的对齐。在强引导机制中,我们通过引入目标域中置信度最高的样本对源域数据集进行扩展,以增强模型对目标域特征的感知能力;而在弱引导机制中,我们采用知识蒸馏损失(knowledge distillation loss),并利用(偏移后的)零样本预测结果生成软标签,对整个目标域数据进行指导。强引导使用硬标签,但仅作用于目标域中置信度最高的预测结果;而弱引导则作用于整个目标域数据,使用软标签进行训练,从而提供更平滑、更具鲁棒性的监督信号。实验结果表明,所提出的方法能够与视觉-语言模型的提示调优(prompt adaptation)技术相辅相成,并显著提升整体性能。我们在三个主流基准数据集(Office-Home、VisDA 和 DomainNet)上进行了充分的实验与消融研究,结果表明该方法在多个任务上均优于当前最先进的技术。进一步的消融分析也验证了算法中各组件的独立贡献,充分说明了强-弱双引导机制的有效性与协同作用。