11 天前

视觉-语言模型的条件提示学习

Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu

摘要

随着CLIP等强大预训练视觉-语言模型的兴起，如何将这些模型适配至下游数据集已成为一项关键任务。近期提出的一种名为上下文优化（Context Optimization, CoOp）的方法，将自然语言处理（NLP）领域中新兴的提示学习（prompt learning）理念引入视觉领域，用于适配预训练的视觉-语言模型。具体而言，CoOp将提示中的上下文词转化为一组可学习的向量，并仅需少量标注图像即可实现显著优于人工精心调优提示的性能提升。在本研究中，我们发现CoOp存在一个关键问题：其学习得到的上下文对同一数据集中未见类别的泛化能力较差，表明CoOp在训练过程中对基础类别存在过拟合现象。为解决该问题，我们提出条件上下文优化（Conditional Context Optimization, CoCoOp），在CoOp基础上进一步引入一个轻量级神经网络，用于为每张图像生成一个与输入相关的词元（向量）。与CoOp中静态提示不同，我们的动态提示能够根据输入实例自适应调整，因而对类别分布的变化具有更强的鲁棒性。大量实验结果表明，CoCoOp在未见类别上的泛化能力显著优于CoOp，甚至展现出跨数据集的潜在迁移能力；同时在领域泛化性能方面也表现更优。相关代码已开源，地址为：https://github.com/KaiyangZhou/CoOp。