摘要

如何高效地将大规模语言模型（LLMs）转化为指令跟随者是近期一个热门的研究方向，而针对多模态推理的大规模语言模型训练则较少被探索。尽管最近的LLaMA-Adapter展示了利用大规模语言模型处理视觉输入的潜力，但它仍然无法很好地泛化到开放式的视觉指令，并且在性能上落后于GPT-4。本文中，我们介绍了LLaMA-Adapter V2，这是一种参数高效的视觉指令模型。具体而言，我们首先通过解锁更多可学习参数（例如归一化、偏置和缩放），增强了LLaMA-Adapter的功能，这些参数不仅分布在适配器中，还分布在整个LLaMA模型中。其次，我们提出了一种早期融合策略，仅将视觉标记输入到早期的大规模语言模型层中，从而更好地融入视觉知识。第三，我们引入了一种联合训练范式，通过优化不同的可学习参数组来同时训练图像-文本对和指令跟随数据。这一策略有效缓解了图像-文本对齐和指令跟随两个任务之间的干扰，并且仅使用小规模的图像-文本和指令数据集就能实现强大的多模态推理能力。在推理过程中，我们将额外的专家模型（如字幕生成/光学字符识别系统）集成到LLaMA-Adapter中，进一步增强其图像理解能力而不增加训练成本。与原始的LLaMA-Adapter相比，我们的LLaMA-Adapter V2仅通过引入1400万个参数就能够在开放式多模态指令上表现出色。新设计的框架还展现了更强的语言指令跟随能力和甚至在对话交互中的优越表现。我们的代码和模型可在https://github.com/ZrrSkywalker/LLaMA-Adapter 获取。

源 PDF 查看代码