HyperAI超神经

InternVL3:探索开源多模态模型的高级训练和测试方法

Jinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
发布日期: 4/16/2025
InternVL3:探索开源多模态模型的高级训练和测试方法
摘要

我们介绍了一种在InternVL系列中具有重大进展的模型——InternVL3,该模型采用了一种原生的多模态预训练范式。与将纯文本大型语言模型(LLM)改编为支持视觉输入的多模态大型语言模型(MLLM)不同,InternVL3在单一预训练阶段中,同时从多样化的多模态数据和纯文本语料库中获取多模态和语言能力。这种统一的训练范式有效地解决了传统事后训练管道中常见的复杂性和对齐问题。为了进一步提升性能和可扩展性,InternVL3引入了可变视觉位置编码(V2PE),以支持扩展的多模态上下文,并采用了先进的后训练技术,如监督微调(SFT)和混合偏好优化(MPO),同时结合了测试时扩展策略和优化的训练基础设施。广泛的实证评估表明,InternVL3在多种多模态任务中表现出色。特别是,InternVL3-78B在MMMU基准测试中取得了72.2分的成绩,成为开源MLLM中的最新标杆。其能力与包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro在内的领先专有模型保持高度竞争力,同时仍具备强大的纯语言能力。为了遵循开放科学原则,我们将公开发布训练数据和模型权重,以促进下一代MLLM的研究和开发。