
摘要
在多模态大语言模型(Multimodal Large Language Models, MLLMs)中,视觉投影器在连接预训练视觉编码器与大语言模型方面发挥着关键作用,能够在利用大语言模型的强大能力的同时实现深刻的视觉理解。尽管视觉投影器的重要性显而易见,但其研究相对较少。本研究首先识别出两个重要的投影器特性:(i) 管理视觉标记数量的灵活性,这对于 MLLMs 的整体效率至关重要;(ii) 保留来自视觉特征的局部上下文,对于空间理解至关重要。基于这些发现,我们提出了一种新型的投影器设计,该设计既灵活又增强了局部性,有效满足了这两个理想的特性。此外,我们还提出了全面的策略来有效地利用多个多方面的指令数据集。通过广泛的实验,我们考察了各个设计选择的影响。最终,我们提出的 MLLM 模型 Honeybee 在多个基准测试中显著优于先前的最先进方法,包括 MME、MMBench、SEED-Bench 和 LLaVA-Bench,并实现了显著更高的效率。代码和模型可在 https://github.com/kakaobrain/honeybee 获取。