Command Palette
Search for a command to run...
一句话诉说千幅图像:通过语言引导蒸馏CLIP实现领域泛化
一句话诉说千幅图像:通过语言引导蒸馏CLIP实现领域泛化
Zeyi Huang Andy Zhou Zijian Lin Mu Cai Haohan Wang Yong Jae Lee
摘要
领域泛化(Domain Generalization)旨在通过在多个已知领域(或分布)的样本上训练模型,使其在面对全新、未见过的领域时仍能保持良好的泛化性能。本文提出了一种新颖的领域泛化方法,该方法利用近期大型视觉-语言模型(如CLIP)的进展,借助一个大型的CLIP教师模型来指导一个小型学生模型的训练,从而提升其在未见领域中的泛化能力。本文的核心技术贡献是一种新型正则化机制,要求学生模型所学习到的图像表征,与通过编码对应图像文本描述而获得的教师模型的文本表征尽可能接近。为此,我们设计了两种损失函数形式:绝对距离损失与相对距离损失,分别对学生的训练过程提供具体而明确的正则化指导。我们在多个基准数据集上对所提出的Rise(Regularized Invariance with Semantic Embeddings,语义嵌入正则化不变性)方法进行了评估,结果表明,该方法在性能上优于多种当前先进的领域泛化技术。据我们所知,本工作是首个将基于大型视觉-语言模型的知识蒸馏技术应用于领域泛化的研究。通过引入基于文本的语义信息,Rise显著增强了机器学习模型的泛化能力。