17 天前

一个好的提示胜过数百万参数:面向视觉-语言模型的低资源提示学习

Woojeong Jin, Yu Cheng, Yelong Shen, Weizhu Chen, Xiang Ren
一个好的提示胜过数百万参数:面向视觉-语言模型的低资源提示学习
摘要

大规模预训练视觉-语言(Vision-Language, VL)模型能够仅通过少量示例学习新任务,并在无需微调的情况下实现对新任务的良好泛化。然而,由于模型规模过于庞大且推理速度缓慢,这些VL模型在实际应用中难以部署。为解决这一局限性,本文提出了一种基于提示(prompt-based)的低资源VL任务学习方法——FewVLM,其模型规模显著小于近期同类的少样本学习模型。在FewVLM中,我们采用前缀语言建模(PrefixLM)与掩码语言建模(MaskedLM)相结合的方式,对序列到序列的Transformer模型进行预训练。此外,本文还系统分析了不同提示形式对少样本任务性能的影响。在视觉问答(VQA)任务上的实验结果表明,采用提示学习的FewVLM在性能上超越了规模为其31倍的Frozen模型达18.2个百分点,且达到了比其大246倍的模型PICa相当的水平。我们的分析进一步揭示了以下发现:(1)提示对零样本性能有显著影响,但对少样本性能的影响相对较小;(2)在训练数据量较大的情况下,使用噪声提示的模型与手工设计提示的模型具有相近的学习速度;(3)MaskedLM有助于提升VQA任务的表现,而PrefixLM则更有利于图像字幕生成任务。本文代码已公开,访问地址为:\url{https://github.com/woojeongjin/FewVLM}。