18日前

MiniCPM-V 4.5:アーキテクチャ、データ、トレーニングレシピによる効率的なMLLMsの構築

Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun
MiniCPM-V 4.5:アーキテクチャ、データ、トレーニングレシピによる効率的なMLLMsの構築
要約

マルチモーダル大規模言語モデル(MLLM)は急速な進展を遂げており、AI開発の最前線を担っている。しかし、その学習および推論の効率性が、MLLMのより広範な利用可能性とスケーラビリティを実現する上で、重要なボトルネックとなっている。この課題に対応するため、本研究では、高効率性と優れた性能を両立する80億パラメータのモデル「MiniCPM-V 4.5」を提案する。本モデルでは、モデルアーキテクチャ、データ戦略、学習手法の3つの観点から、以下の核心的改善を実現した:画像および動画の高密度な符号化を可能にする統合型3D-Resamplerアーキテクチャ、大量のデータ工学を必要とせずに文書知識とテキスト認識を統合的に学習するパラダイム、短時間および長時間の推論モードの両方に優れた能力を発揮するハイブリッド強化学習戦略。OpenCompass評価において行われた包括的な実験結果から、MiniCPM-V 4.5はGPT-4o-latestを含む広く使われているプロプライエタリモデル、およびQwen2.5-VL 72Bのような大幅に大きなオープンソースモデルを上回ることが明らかになった。特に注目すべきは、優れた性能が極めて高い効率性を伴って達成されている点である。例えば、広く採用されているVideoMMEベンチマークにおいて、300億パラメータ未満のモデル群の中で最高水準の性能を達成し、Qwen2.5-VL 7Bと比較してGPUメモリ使用量を46.7%、推論時間は8.7%にまで削減した。