2 个月前

通过视觉指令调优改进基线模型

Haotian Liu; Chunyuan Li; Yuheng Li; Yong Jae Lee
通过视觉指令调优改进基线模型
摘要

大型多模态模型(LMM)在视觉指令调优方面最近展现出令人鼓舞的进展。本文指出,LLaVA 中的全连接视觉-语言跨模态连接器表现出惊人的强大性能和数据效率。通过对 LLaVA 进行简单的修改,即使用带有 MLP 投影的 CLIP-ViT-L-336px 模型并添加格式简单的学术任务导向的视觉问答(VQA)数据,我们建立了更强的基线模型,在 11 个基准测试中达到了当前最佳水平。我们的最终 130 亿参数模型仅使用了 120 万条公开可用的数据,并且在一个包含 8 块 A100 GPU 的节点上大约一天即可完成全部训练。我们希望这能使最先进的 LMM 研究更加普及。代码和模型将公开发布。

通过视觉指令调优改进基线模型 | 最新论文 | HyperAI超神经