MiniCPM-V 4.5 : Préparer efficacement les MLLMs grâce à l'architecture, aux données et à la recette d'entraînement

Les modèles linguistiques à grande échelle multimodaux (MLLM) connaissent un progrès rapide et représentent aujourd’hui la pointe du développement de l’intelligence artificielle. Toutefois, leur efficacité en apprentissage et en inférence s’est imposée comme un goulot d’étranglement central freinant leur accessibilité et leur évolutivité. Pour relever ces défis, nous présentons MiniCPM-V 4.5, un modèle de 8 milliards de paramètres conçu pour offrir à la fois une haute efficacité et des performances remarquables. Nous introduisons trois améliorations fondamentales dans l’architecture du modèle, la stratégie de données et la méthode d’entraînement : une architecture de modèle unifiée 3D-Resampler permettant une encodage très compact des images et des vidéos, un paradigme d’apprentissage unifié pour la connaissance documentaire et la reconnaissance de texte, sans nécessiter d’ingénierie de données lourde, ainsi qu’une stratégie hybride d’apprentissage par renforcement permettant une maîtrise à la fois des modes de raisonnement courts et longs. Les résultats expérimentaux complets sur l’évaluation OpenCompass montrent que MiniCPM-V 4.5 dépasse des modèles propriétaires largement utilisés tels que GPT-4o-latest, ainsi que des modèles open-source bien plus volumineux comme Qwen2.5-VL 72B. Notamment, cette performance élevée est obtenue avec une efficacité remarquable : par exemple, sur le benchmark VideoMME largement adopté, MiniCPM-V 4.5 atteint un état de l’art parmi les modèles de taille inférieure à 30 milliards de paramètres, tout en utilisant seulement 46,7 % de la mémoire GPU et 8,7 % du temps d’inférence requis par Qwen2.5-VL 7B.