6 个月前

摘要

尽管大规模预训练视觉-语言模型（VLMs）在众多下游任务中取得了前所未有的成功，但其在真实世界中的无监督域自适应（Unsupervised Domain Adaptation, UDA）问题仍鲜有深入研究。为此，本文首次通过实验验证了：经过无监督训练的VLMs能够显著缩小源域与目标域之间的分布差异，从而有效提升UDA任务的性能。然而，将此类模型直接应用于下游UDA任务面临一个关键挑战——提示工程（prompt engineering），其核心在于对齐源域与目标域的领域知识，因为UDA的性能严重依赖于具有领域不变性的表征。为此，本文进一步提出一种基于提示的分布对齐方法（Prompt-based Distribution Alignment, PDA），旨在将领域知识融入提示学习过程。具体而言，PDA采用双分支提示调优框架，包括基础分支与对齐分支。基础分支专注于将与类别相关的表征融入提示，以确保不同类别之间的有效区分；为进一步降低域间差异，对齐分支构建了源域与目标域各自的特征库，并提出图像引导的特征调优（Image-guided Feature Tuning, IFT）机制，使模型输入能够关注特征库，从而有效融合自增强特征与跨域特征。通过这种双分支协同机制，两个分支相互促进，显著增强了VLM在UDA任务中的适应能力。我们在三个主流基准数据集上进行了大量实验，结果表明，所提出的PDA方法在性能上达到了当前最优水平。相关代码已开源，地址为：https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment。

源 PDF