2 个月前

InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型

Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, Songyang Zhang, Wenwei Zhang, Yining Li, Yang Gao, Peng Sun, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Hang Yan, Conghui He, Xingcheng Zhang, Kai Chen, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang
InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型
摘要

我们推出了InternLM-XComposer-2.5(IXC-2.5),这是一款支持长上下文输入和输出的多功能大型视觉语言模型。IXC-2.5在多种文本-图像理解和生成应用中表现出色,仅使用7B参数的大规模语言模型(LLM)后端即可达到GPT-4V级别的能力。该模型经过24K交错图像-文本上下文的训练,通过RoPE外推技术可以无缝扩展到96K的长上下文。这种长上下文能力使得IXC-2.5在需要大量输入和输出上下文的任务中表现优异。相比之前的2.0版本,InternLM-XComposer-2.5在视觉语言理解方面进行了三项重大升级:(1)超高分辨率理解,(2)细粒度视频理解,(3)多轮多图像对话。除了理解能力之外,IXC-2.5还通过额外的LoRA参数扩展到了两个引人注目的文本-图像生成应用:(1)网页设计,(2)高质量文本-图像文章创作。IXC-2.5已在28个基准测试中进行了评估,在16个基准测试上超越了现有的开源最先进模型,并在16个关键任务上超过了或接近GPT-4V和Gemini Pro的表现。InternLM-XComposer-2.5现已公开发布,可在https://github.com/InternLM/InternLM-XComposer获取。

InternLM-XComposer-2.5:一种支持长上下文输入和输出的多功能大规模视觉语言模型 | 最新论文 | HyperAI超神经