HyperAIHyperAI

Command Palette

Search for a command to run...

MiniCPM-V 4.5 : Préparer efficacement les MLLMs grâce à l'architecture, aux données et à la recette d'entraînement

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) connaissent un progrès rapide et représentent aujourd’hui la pointe du développement de l’intelligence artificielle. Toutefois, leur efficacité en apprentissage et en inférence s’est imposée comme un goulot d’étranglement central freinant leur accessibilité et leur évolutivité. Pour relever ces défis, nous présentons MiniCPM-V 4.5, un modèle de 8 milliards de paramètres conçu pour offrir à la fois une haute efficacité et des performances remarquables. Nous introduisons trois améliorations fondamentales dans l’architecture du modèle, la stratégie de données et la méthode d’entraînement : une architecture de modèle unifiée 3D-Resampler permettant une encodage très compact des images et des vidéos, un paradigme d’apprentissage unifié pour la connaissance documentaire et la reconnaissance de texte, sans nécessiter d’ingénierie de données lourde, ainsi qu’une stratégie hybride d’apprentissage par renforcement permettant une maîtrise à la fois des modes de raisonnement courts et longs. Les résultats expérimentaux complets sur l’évaluation OpenCompass montrent que MiniCPM-V 4.5 dépasse des modèles propriétaires largement utilisés tels que GPT-4o-latest, ainsi que des modèles open-source bien plus volumineux comme Qwen2.5-VL 72B. Notamment, cette performance élevée est obtenue avec une efficacité remarquable : par exemple, sur le benchmark VideoMME largement adopté, MiniCPM-V 4.5 atteint un état de l’art parmi les modèles de taille inférieure à 30 milliards de paramètres, tout en utilisant seulement 46,7 % de la mémoire GPU et 8,7 % du temps d’inférence requis par Qwen2.5-VL 7B.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MiniCPM-V 4.5 : Préparer efficacement les MLLMs grâce à l'architecture, aux données et à la recette d'entraînement | Articles | HyperAI