18 天前

MiniCPM-V 4.5:通过架构、数据与训练配方实现高效MLLMs的烹饪

Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun
MiniCPM-V 4.5:通过架构、数据与训练配方实现高效MLLMs的烹饪
摘要

多模态大语言模型(MLLMs)正经历快速发展,已成为人工智能技术的前沿领域。然而,其训练与推理效率已成为制约MLLMs进一步普及与规模化应用的核心瓶颈。为应对这一挑战,我们提出MiniCPM-V 4.5,一款参数量为80亿(8B)的高效且性能强劲的模型。我们在模型架构、数据策略与训练方法三个方面引入三项核心改进:采用统一的3D-Resampler模型架构,实现对图像与视频的高密度紧凑编码;构建统一的学习范式,无需复杂的数据工程即可同时支持文档知识理解与文本识别;提出混合强化学习策略,有效提升模型在短时与长时推理模式下的表现能力。在OpenCompass评测体系中的全面实验结果表明,MiniCPM-V 4.5在多项指标上超越了广泛使用的商业模型(如GPT-4o-latest),并显著优于参数量更大的开源模型(如Qwen2.5-VL 72B)。尤为突出的是,该模型在实现卓越性能的同时,展现出极高的效率。例如,在广泛采用的VideoMME基准测试中,MiniCPM-V 4.5在参数规模低于300亿的模型中达到领先水平,其GPU显存占用仅为Qwen2.5-VL 7B的46.7%,推理时间仅为其8.7%。