HyperAIHyperAI

Command Palette

Search for a command to run...

通过视觉指令调优改进基线模型

Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee

摘要

大型多模态模型(LMM)在视觉指令调优方面最近展现出令人鼓舞的进展。本文指出,LLaVA 中的全连接视觉-语言跨模态连接器表现出惊人的强大性能和数据效率。通过对 LLaVA 进行简单的修改,即使用带有 MLP 投影的 CLIP-ViT-L-336px 模型并添加格式简单的学术任务导向的视觉问答(VQA)数据,我们建立了更强的基线模型,在 11 个基准测试中达到了当前最佳水平。我们的最终 130 亿参数模型仅使用了 120 万条公开可用的数据,并且在一个包含 8 块 A100 GPU 的节点上大约一天即可完成全部训练。我们希望这能使最先进的 LMM 研究更加普及。代码和模型将公开发布。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供