HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMax-M2.5 : Un modèle de pointe à 1 dollar de l’heure, révolutionnaire en agentic AI

Le 12 février 2026, à peine un mois après son introduction en Bourse à Hong Kong, l’entreprise chinoise MiniMax a dévoilé M2.5, un modèle d’intelligence artificielle de pointe aux performances impressionnantes : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench (premier rang), et 76,3 % sur BrowseComp. Ces résultats se situent à un point près de Claude Opus 4.6 et dépassent GPT-5.2 sur plusieurs benchmarks agents. Ce qui frappe, c’est le coût : environ 1 dollar par heure d’exécution continue à 100 tokens/seconde. M2.5 est un modèle Mixture-of-Experts (MoE) de 230 milliards de paramètres, avec seulement 10 milliards actifs par passage, entraîné via un apprentissage par renforcement à grande échelle sur plus de 200 000 environnements réels. Il excelle non seulement dans la génération de code, mais aussi dans les tâches de productivité bureautique (Word, Excel, PowerPoint). M2.5 représente une évolution de la série M2 lancée fin octobre 2025. L’architecture reste identique : MoE de 230B paramètres, 10B actifs par itération. Ce nombre d’actifs est exceptionnellement faible pour un modèle de ce niveau. Deux versions sont proposées : la version Lightning, deux fois plus rapide que les modèles de pointe, et la version Standard, très économique. En comparaison, Claude Opus 4.6 facture 5 $/M tokens d’entrée et 25 $/M pour la sortie, tandis que GLM-5, récemment lancé, coûte 1 $/M et 3,20 $/M. MiniMax affirme avoir « entièrement open-sourcé » les poids sur Hugging Face, bien que ceux-ci ne soient pas encore disponibles. Pour une exécution locale, vLLM ou SGLang sont recommandés, la charge d’inférence étant très maîtrisable grâce aux 10B paramètres actifs. Les benchmarks révèlent des forces marquantes. Le score de 51,3 % sur Multi-SWE-Bench, supérieur à celui d’Opus 4.6 (50,3 %), témoigne d’une capacité multilingue solide (Python, Go, C, C++, TypeScript, Rust, Kotlin, Java, JavaScript, PHP, Lua, Dart, Ruby). Le score de 76,8 % sur le test multi-tours de BFCL, soit +13 points d’écart sur Opus 4.6, illustre une progression spectaculaire par rapport à M2.1 (+39,4 points). L’évaluation indépendante d’OpenHands place M2.5 au 4e rang mondial, derrière Opus 4.6, Opus 4.5 et GPT-5.2 Codex. Graham Neubig souligne sa capacité à mener à bien des tâches complexes comme le développement d’applications depuis zéro, un domaine où les modèles plus petits échouent souvent. La percée technique repose sur Forge, le cadre d’apprentissage par renforcement « agent-native » de MiniMax. Il sépare le moteur d’entraînement de la structure d’agent, permettant de tester le modèle sur divers frameworks (Claude Code, Droid, OpenCode) sans surapprentissage. Trois innovations clés ont permis l’échelle : CISPO (Clipped Importance Sampling Policy Optimization), une méthode d’optimisation qui clippe les poids d’échantillonnage plutôt que les mises à jour, permettant une meilleure utilisation de tous les tokens ; une planification asynchrone combinée à un regroupement d’échantillons en arbre, offrant une accélération d’environ 40x ; et une récompense par processus, qui évalue la qualité de génération tout au long de la trajectoire et intègre le temps réel de résolution comme signal de récompense. L’entraînement de M2.5 a duré environ deux mois, un record pour un modèle de cette envergure. Pour comparaison, l’entraînement de M1 sur 512 H800 a pris trois semaines pour 534 700 dollars. L’architecture plus petite (230B MoE vs 456B pour M1) a réduit les besoins en calcul. M2.5 montre aussi une capacité émergente à écrire des spécifications avant de coder, réduisant ainsi les erreurs et les tokens utilisés (3,52M par tâche vs 3,72M pour M2.1). En productivité bureautique, MiniMax affirme un taux de victoire de 59,0 % sur son benchmark interne GDPval-MM. La plateforme MiniMax Agent, accessible aux utilisateurs, compte déjà plus de 10 000 « Experts » spécialisés. Le coût réduit ouvre des perspectives d’usage massif. MiniMax estime qu’on peut faire fonctionner quatre instances de M2.5 pendant un an pour 10 000 dollars. Bien que l’expérience ne soit pas encore parfaite (rapports d’OpenHands évoquant des erreurs mineures comme des poussées de branche incorrectes), M2.5 représente une trajectoire clairement viable vers une efficacité accrue. La question suivante : l’amélioration rapide de la série M2 est-elle due à une remise à niveau ou à une avancée réelle en apprentissage par renforcement agent ? Le domaine de la productivité bureautique pourrait être une voie différenciante. MiniMax promet un billet technique détaillé sur Forge et les lois d’échelle de son apprentissage.

Liens associés

MiniMax-M2.5 : Un modèle de pointe à 1 dollar de l’heure, révolutionnaire en agentic AI | Articles tendance | HyperAI