Command Palette
Search for a command to run...
InfMLLM:一种面向视觉-语言任务的统一框架
InfMLLM:一种面向视觉-语言任务的统一框架
Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi
摘要
大规模语言模型(Large Language Models, LLMs)在处理各类以语言为中心的应用任务方面已展现出卓越的通用性。为了将LLMs的能力拓展至更广泛的多模态输入场景,多模态大规模语言模型(Multimodal Large Language Models, MLLMs)近年来受到越来越多关注。本文致力于提升LLMs在视觉-语言相关任务中的表现,特别是图像描述生成(image captioning)、视觉问答(Visual Question Answering, VQA)以及视觉定位(visual grounding)等任务。为此,我们提出了一种三阶段训练策略:首先进行轻量级对齐预训练,随后开展中等规模的多任务混合训练,最后通过LLM微调以增强模型对指令的理解与遵循能力。在整个训练过程中,GPU内存需求呈逐步上升趋势。为有效控制传入LLM的视觉嵌入(visual embeddings)数量,同时保留其空间位置信息,我们引入了一种简洁高效的视觉适配模块,称为“pool-adapter”。实验结果表明,通过pool-adapter保留视觉嵌入的位置信息,在视觉定位等任务中具有显著优势。我们提出的模型命名为InfMLLM,并在多个基准数据集上进行了全面评估。结果表明,InfMLLM在各项任务中均达到了当前最优(State-of-the-Art, SOTA)性能,或与近期先进MLLMs相当。相关代码与模型将开源发布于:\url{https://github.com/mightyzau/InfMLLM}。