2 个月前

LLaMA-Adapter:零初始化注意力机制下的语言模型高效微调

Renrui Zhang; Jiaming Han; Chris Liu; Peng Gao; Aojun Zhou; Xiangfei Hu; Shilin Yan; Pan Lu; Hongsheng Li; Yu Qiao
LLaMA-Adapter:零初始化注意力机制下的语言模型高效微调
摘要

我们介绍了LLaMA-Adapter,这是一种轻量级的适应方法,可以高效地将LLaMA微调为指令跟随模型。通过使用52,000个自指导演示数据,LLaMA-Adapter仅在冻结的LLaMA 7B模型上引入了1.2百万个可学习参数,并且在8块A100 GPU上进行微调的时间不到一小时。具体而言,我们采用了一组可学习的适应提示符,并将其添加到较高层Transformer的词元之前。然后,我们提出了一种零初始化注意力机制(带有零门控),该机制能够自适应地将新的指令线索注入LLaMA中,同时有效地保留其预训练知识。通过我们的高效训练方法,LLaMA-Adapter能够生成高质量的响应,其性能与完全微调7B参数的Alpaca相当。除了语言命令外,我们的方法还可以简单扩展到多模态指令,以学习图像条件下的LLaMA模型,该模型在ScienceQA和COCO Caption基准测试中表现出色。此外,我们还评估了零初始化注意力机制在传统视觉和语言任务中对其他预训练模型(如ViT和RoBERTa)进行微调的效果,展示了我们方法出色的泛化能力。代码已发布在https://github.com/OpenGVLab/LLaMA-Adapter。

LLaMA-Adapter:零初始化注意力机制下的语言模型高效微调 | 最新论文 | HyperAI超神经