HyperAIHyperAI

Command Palette

Search for a command to run...

InfMLLM:一种面向视觉-语言任务的统一框架

Qiang Zhou Zhibin Wang Wei Chu Yinghui Xu Hao Li Yuan Qi

摘要

大规模语言模型(Large Language Models, LLMs)在处理各类以语言为中心的应用任务方面已展现出卓越的通用性。为了将LLMs的能力拓展至更广泛的多模态输入场景,多模态大规模语言模型(Multimodal Large Language Models, MLLMs)近年来受到越来越多关注。本文致力于提升LLMs在视觉-语言相关任务中的表现,特别是图像描述生成(image captioning)、视觉问答(Visual Question Answering, VQA)以及视觉定位(visual grounding)等任务。为此,我们提出了一种三阶段训练策略:首先进行轻量级对齐预训练,随后开展中等规模的多任务混合训练,最后通过LLM微调以增强模型对指令的理解与遵循能力。在整个训练过程中,GPU内存需求呈逐步上升趋势。为有效控制传入LLM的视觉嵌入(visual embeddings)数量,同时保留其空间位置信息,我们引入了一种简洁高效的视觉适配模块,称为“pool-adapter”。实验结果表明,通过pool-adapter保留视觉嵌入的位置信息,在视觉定位等任务中具有显著优势。我们提出的模型命名为InfMLLM,并在多个基准数据集上进行了全面评估。结果表明,InfMLLM在各项任务中均达到了当前最优(State-of-the-Art, SOTA)性能,或与近期先进MLLMs相当。相关代码与模型将开源发布于:\url{https://github.com/mightyzau/InfMLLM}


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供