Command Palette

Search for a command to run...

3 个月前

MM1.5:多模态LLM微调的方法、分析与洞见

摘要

我们提出MM1.5,这是一个新型多模态大语言模型(MLLM)系列,旨在提升在文本密集型图像理解、视觉指代与定位以及多图像推理方面的能力。基于MM1架构,MM1.5采用以数据为中心的模型训练方法,系统性地探索了在模型训练全生命周期中不同数据组合的影响。这包括用于持续预训练的高质量OCR数据和合成描述文本,以及为监督微调优化的视觉指令微调数据组合。我们的模型参数规模从10亿(1B)到300亿(30B)不等,涵盖密集参数模型和专家混合(Mixture-of-Experts, MoE)两种变体,并表明即使在小规模(1B和3B)下,通过精心的数据筛选与训练策略,也能实现优异的性能。此外,我们还推出了两个专用变体:MM1.5-Video,专为视频理解设计;MM1.5-UI,针对移动用户界面(UI)理解进行优化。通过广泛的实证研究与消融实验,我们深入剖析了训练过程与关键决策,为未来多模态大语言模型的开发提供了宝贵的经验与指导。

基准测试

基准方法指标
visual-question-answering-on-mm-vetMM1.5-30B
GPT-4 score: 52.0
visual-question-answering-on-mm-vetMM1.5-3B
GPT-4 score: 41.0
visual-question-answering-on-mm-vetMM1.5-1B-MoE
GPT-4 score: 39.8
visual-question-answering-on-mm-vetMM1.5-7B
GPT-4 score: 42.2
visual-question-answering-on-mm-vetMM1.5-1B
GPT-4 score: 37.4
visual-question-answering-on-mm-vetMM1.5-3B-MoE
GPT-4 score: 43.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供