Mono-InternVL-1.5:迈向更经济、更快捷的单片多模态大语言模型

本文聚焦于单片多模态大语言模型(Monolithic Multimodal Large Language Models, MLLMs),该类模型将视觉编码和语言解码集成到一个单一模型中。现有的单片MLLMs结构和预训练策略通常面临优化不稳定和灾难性遗忘的问题。为了解决这些挑战,我们的核心思想是在预训练的大语言模型(LLM)中嵌入一个新的视觉参数空间,通过增量调优(delta tuning)实现从噪声数据中稳定学习视觉知识。基于这一原则,我们首先介绍了Mono-InternVL,这是一种先进的单片MLLM,通过多模态专家混合架构集成了多个视觉专家。此外,我们为Mono-InternVL设计了一种创新的内源性视觉预训练方法(Endogenous Visual Pre-training, EViP),以渐进式学习的方式最大化其视觉能力。Mono-InternVL在性能上与现有的MLLMs相当,但同时也导致了较高的数据成本。因此,我们进一步提出了Mono-InternVL-1.5,这是一种成本更低且性能更强的单片MLLM,配备了改进的EViP(EViP++)。EViP++向Mono-InternVL-1.5引入了额外的视觉注意力专家,并以高效的方式重组了预训练过程。在推理阶段,它包含了一个融合的CUDA内核以加速其MoE操作。通过这些设计,Mono-InternVL-1.5显著降低了训练和推理的成本,同时仍保持与Mono-InternVL相当的性能。为了评估我们的方法,我们在15个基准测试上进行了广泛的实验。结果表明,在15个基准测试中的12个上,Mono-InternVL优于现有的单片MLLMs,例如在OCRBench上比Emu3提高了114分。与模块化的同类模型(即InternVL-1.5)相比,Mono-InternVL-1.5在多模态性能方面达到了相似水平,同时将首令牌延迟减少了多达69%。代码和模型已发布在https://github.com/OpenGVLab/Mono-InternVL。