9 天前

SPHINX-X:面向多模态大语言模型家族的数据与参数扩展

Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao
SPHINX-X:面向多模态大语言模型家族的数据与参数扩展
摘要

我们提出SPHINX-X,这是一个基于SPHINX架构构建的大型多模态语言模型(MLLM)系列。为提升模型架构设计与训练效率,我们对SPHINX框架进行了优化:移除了冗余的视觉编码器,通过跳过标记(skip tokens)绕过全填充的子图像,同时将多阶段训练简化为统一的一阶段端到端训练范式。为充分挖掘MLLM的潜力,我们构建了一个覆盖多领域、多模态的综合性数据集,整合了公开可用的语言、视觉及视觉-语言任务资源。此外,我们还引入了精心筛选的OCR密集型数据集与集合标记(Set-of-Mark)数据集,进一步增强了数据集的多样性与泛化能力。通过在多种基础大语言模型(包括TinyLlama-1.1B、InternLM2-7B、LLaMA2-13B以及Mixtral-8x7B)上进行训练,我们获得了参数规模与多语言能力各不相同的多模态模型系列。全面的基准测试表明,多模态性能与数据规模及模型参数规模之间存在显著正相关关系。代码与模型已开源,地址为:https://github.com/Alpha-VLLM/LLaMA2-Accessory。

SPHINX-X:面向多模态大语言模型家族的数据与参数扩展 | 最新论文 | HyperAI超神经