摘要

大规模语言模型（Large Language Models, LLMs）在处理各类以语言为中心的应用任务方面已展现出卓越的通用性。为了将LLMs的能力拓展至更广泛的多模态输入场景，多模态大规模语言模型（Multimodal Large Language Models, MLLMs）近年来受到越来越多关注。本文致力于提升LLMs在视觉-语言相关任务中的表现，特别是图像描述生成（image captioning）、视觉问答（Visual Question Answering, VQA）以及视觉定位（visual grounding）等任务。为此，我们提出了一种三阶段训练策略：首先进行轻量级对齐预训练，随后开展中等规模的多任务混合训练，最后通过LLM微调以增强模型对指令的理解与遵循能力。在整个训练过程中，GPU内存需求呈逐步上升趋势。为有效控制传入LLM的视觉嵌入（visual embeddings）数量，同时保留其空间位置信息，我们引入了一种简洁高效的视觉适配模块，称为“pool-adapter”。实验结果表明，通过pool-adapter保留视觉嵌入的位置信息，在视觉定位等任务中具有显著优势。我们提出的模型命名为InfMLLM，并在多个基准数据集上进行了全面评估。结果表明，InfMLLM在各项任务中均达到了当前最优（State-of-the-Art, SOTA）性能，或与近期先进MLLMs相当。相关代码与模型将开源发布于：\url{https://github.com/mightyzau/InfMLLM}。

源 PDF