
摘要
领域泛化(Domain Generalization, DG)是一项具有挑战性的迁移学习任务,旨在学习一个能够适应未见领域(unseen domains)的通用模型。近年来,基础模型(Foundation Models, FMs)在应对多种分布偏移(distribution shifts)方面表现出较强的鲁棒性,因此有望显著提升领域泛化任务的性能。在本研究中,我们探索了将CLIP——一种视觉-语言基础模型——应用于图像分类领域泛化问题的通用方法。尽管在标准DG基准上,采用更大规模主干网络和更大训练数据集的常规经验风险最小化(ERM)方法能显著提升准确率,但在许多现实场景中,微调基础模型并不实际。为此,我们提出了一种名为领域提示学习(Domain Prompt Learning, DPL)的新方法,通过条件化提示生成的方式实现领域推理。DPL仅需训练一个轻量级提示生成器(一个三层MLP),其参数量与以往DG研究中分类投影层(classification projector)的规模相当,却取得了显著的性能提升。将DPL与CLIP结合后,展现出令人惊讶的性能表现:在多个标准数据集(PACS、VLCS、OfficeHome和TerraIncognita)上,零样本CLIP的准确率从73.7%大幅提升至79.3%。我们期望本方法的简洁性与有效性能够推动基础模型在领域泛化领域的更广泛应用与深入研究。相关代码已开源,地址为:https://github.com/shogi880/DPLCLIP。