2 个月前

文本作为图像在多标签图像识别中的提示调优

Guo, Zixian ; Dong, Bowen ; Ji, Zhilong ; Bai, Jinfeng ; Guo, Yiwen ; Zuo, Wangmeng
文本作为图像在多标签图像识别中的提示调优
摘要

提示调优已被用作一种高效的方法,以适应大型视觉-语言预训练模型(如CLIP)在数据有限或标签有限的情况下进行各种下游任务。然而,现有的方法默认需要视觉数据(例如图像)来学习提示。在这项工作中,我们主张图像-文本对比学习在对齐两种模态方面的有效性(用于训练CLIP)进一步使得将文本视为图像进行提示调优成为可能,并引入了TaI提示方法。与视觉数据相比,文本描述易于收集,其类别标签可以直接推导。具体而言,我们将TaI提示应用于多标签图像识别中,其中野外的句子可以作为图像的替代品用于提示调优。此外,借助TaI,提出了双粒度提示调优(TaI-DPT),以提取粗粒度和细粒度嵌入,从而增强多标签识别性能。实验结果表明,我们提出的TaI-DPT在多个基准测试中显著优于零样本CLIP,例如MS-COCO、VOC2007和NUS-WIDE,并且它可以与现有的基于图像的提示方法结合使用,进一步提高识别性能。代码已发布在 https://github.com/guozix/TaI-DPT。