Command Palette
Search for a command to run...
InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解
InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解
摘要
我们提出InternLM-XComposer2,一款前沿的视觉-语言模型,在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴,能够灵活地根据多种输入(如草图、详细文本描述及参考图像)生成交错排列的图文混合内容,实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配(Partial LoRA, PLoRA)方法,仅在图像令牌上应用额外的LoRA参数,从而有效保留预训练语言模型的知识完整性,在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明,基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越,且在多个基准测试中展现出出色的视觉-语言理解能力,不仅显著优于现有主流多模态模型,更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平,充分体现了其在多模态理解领域的强大实力。目前,参数规模为7B的InternLM-XComposer2模型系列已公开发布,可访问GitHub获取:https://github.com/InternLM/InternLM-XComposer。