17 天前
通过模型、数据与测试时扩展,突破开源多模态模型的性能边界
Zhe Chen, Weiyun Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Erfei Cui, Jinguo Zhu, Shenglong Ye, Hao Tian, Zhaoyang Liu, Lixin Gu, Xuehui Wang, Qingyun Li, Yimin Ren, Zixuan Chen, Jiapeng Luo, Jiahao Wang, Tan Jiang, Bo Wang, Conghui He, Botian Shi, Xingcheng Zhang, Han Lv, Yi Wang, Wenqi Shao, Pei Chu, Zhongying Tu, Tong He, Zhiyong Wu, Huipeng Deng, Jiaye Ge, Kai Chen, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang

摘要
我们推出InternVL 2.5,这是一个先进的多模态大语言模型(MLLM)系列,基于InternVL 2.0进行演进,在保持其核心模型架构的基础上,显著提升了训练与测试策略以及数据质量。在本研究中,我们系统性地探讨了模型规模与性能之间的关系,深入分析了视觉编码器、语言模型、数据集规模以及测试阶段配置等关键因素的性能趋势。通过在涵盖多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及纯语言处理等多个基准上的广泛评估,InternVL 2.5展现出具有竞争力的性能,可与GPT-4o、Claude-3.5-Sonnet等领先商业模型相媲美。尤为突出的是,我们的模型是首个在MMMU基准上突破70%得分的开源多模态大模型,通过引入思维链(Chain-of-Thought, CoT)推理方法,实现了3.7个百分点的性能提升,并展现出强大的测试阶段扩展潜力。我们期望该模型能为开源社区带来价值,推动多模态人工智能系统在开发与应用方面树立新的标准。HuggingFace演示地址:https://huggingface.co/spaces/OpenGVLab/InternVL