2 个月前

视觉指令调优

Liu, Haotian ; Li, Chunyuan ; Wu, Qingyang ; Lee, Yong Jae
视觉指令调优
摘要

通过使用机器生成的指令跟随数据对大型语言模型(LLMs)进行指令调优,已经提高了这些模型在新任务上的零样本能力,但在多模态领域这一方法的研究较少。本文中,我们首次尝试仅使用GPT-4生成多模态语言-图像指令跟随数据。通过对这种生成的数据进行指令调优,我们引入了LLaVA:大型语言和视觉助手,这是一个端到端训练的大型多模态模型,连接了一个视觉编码器和一个大型语言模型,用于通用的视觉和语言理解。初步实验表明,LLaVA展示了令人印象深刻的多模态聊天能力,在某些情况下表现出与多模态GPT-4相似的行为,处理未见过的图像/指令时尤为如此,并且在合成的多模态指令跟随数据集上取得了相对于GPT-4 85.1%的相对得分。当在Science QA数据集上进行微调时,LLaVA与GPT-4的协同作用达到了92.53%的新最高准确率。我们公开发布了由GPT-4生成的视觉指令调优数据、我们的模型以及代码库。