16 天前
InternLM-XComposer2:在视觉语言大模型中掌握自由形式的图文组合与理解
Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Xilin Wei, Songyang Zhang, Haodong Duan, Maosong Cao, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang

摘要
我们提出InternLM-XComposer2,一款前沿的视觉-语言模型,在自由形式的图文内容生成与理解方面表现出色。该模型超越了传统视觉-语言理解的范畴,能够灵活地根据多种输入(如草图、详细文本描述及参考图像)生成交错排列的图文混合内容,实现高度可定制化的创作能力。InternLM-XComposer2创新性地引入了部分低秩适配(Partial LoRA, PLoRA)方法,仅在图像令牌上应用额外的LoRA参数,从而有效保留预训练语言模型的知识完整性,在精准视觉理解与富有文采的文本生成之间取得良好平衡。实验结果表明,基于InternLM2-7B架构的InternLM-XComposer2在生成高质量长文本多模态内容方面表现卓越,且在多个基准测试中展现出出色的视觉-语言理解能力,不仅显著优于现有主流多模态模型,更在部分评估任务中达到甚至超越GPT-4V与Gemini Pro的水平,充分体现了其在多模态理解领域的强大实力。目前,参数规模为7B的InternLM-XComposer2模型系列已公开发布,可访问GitHub获取:https://github.com/InternLM/InternLM-XComposer。