HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois
vLLM
Agent
Anthropic

MiniMax M2.7 optimise les workflows agents sur NVIDIA

MiniMax a officiellement déployé son modèle M2.7, une mise à jour significative de la série M2 conçue pour faciliter l'exécution de workflows d'agents autonomes et d'applications d'intelligence artificielle complexes. Disponible en accès ouvert via le réseau NVIDIA et l'écosystème d'inférence open source, ce modèle s'adresse à des secteurs variés tels que la recherche en apprentissage automatique, le génie logiciel, la programmation et les tâches de bureau avancées. Contrairement aux modèles denses traditionnels, le M2.7 repose sur une architecture sparse mixture-of-experts (MoE). Cette conception permet de combiner la puissance d'un modèle de 230 milliards de paramètres avec des coûts d'inférence réduits. Le système n'active que 10 milliards de paramètres pour chaque token traité, soit un taux d'activation de seulement 4,3 %. Grâce à un mécanisme de routage top-k et à des techniques de stabilisation comme l'embedding de position RoPE et la normalisation QK RMSNorm, le modèle maintient une haute performance tout en économisant des ressources. Il gère un contexte d'entrée jusqu'à 200 000 tokens et dispose de 256 experts distincts, dont 8 sont activés par token. Cette architecture est particulièrement optimisée pour les défis de codage et les tâches d'agents nécessitant un raisonnement approfondi. Pour simplifier le déploiement d'agents autonomes, NVIDIA a intégré le M2.7 dans sa plateforme NemoClaw, une pile de référence open source. Cette solution permet d'installer un environnement sécurisé via le runtime OpenShell avec une simple commande. Les développeurs peuvent ainsi provisionner rapidement un environnement d'assistants toujours actifs sur les GPU NVIDIA de la plate-forme Cloud Brev. Ce processus garantit une exécution plus sûre des agents capables d'utiliser des modèles ouverts ou des points de terminaison distants. Les performances du M2.7 ont été considérablement améliorées par des collaborations avec la communauté open source pour optimiser les cadres d'inférence vLLM et SGLang. Ces mises à jour ciblent spécifiquement les exigences architecturales des grands modèles MoE. Sur les GPU NVIDIA Blackwell Ultra, ces optimisations ont permis une augmentation du débit allant jusqu'à 2,5 fois avec vLLM et jusqu'à 2,7 fois avec SGLang en un mois, tout en améliorant l'interactivité. Ces résultats démontrent une capacité accrue à gérer des charges de travail intensives sans sacrifier la réactivité. Le déploiement du M2.7 s'effectue avec une grande flexibilité. Les utilisateurs peuvent tester des prompts directement sur le navigateur via les points de terminaison gratuits de NVIDIA Build, puis passer à la production avec les microservices NIM de NVIDIA, déployables sur site, dans le cloud ou en environnement hybride. Pour l'ajustement des modèles, le framework NVIDIA NeMo fournit une bibliothèque AutoModel et des recettes de post-entraînement, incluant des options pour l'apprentissage par renforcement sur séquences de 8 000 ou 16 000 tokens. L'accès aux dernières vérifications de poids est également disponible sur Hugging Face. En résumé, l'arrivée du MiniMax M2.7 sur les plateformes NVIDIA représente une avancée majeure pour les développeurs cherchant à intégrer des agents intelligents et des capacités de raisonnement complexe. En alliant une architecture efficace, des outils d'inférence optimisés et des solutions de déploiement simplifiées, cette release offre une infrastructure complète, allant du test initial jusqu'à l'intégration industrielle, pour répondre aux besoins croissants de l'IA autonome.

Liens associés

MiniMax M2.7 optimise les workflows agents sur NVIDIA | Articles tendance | HyperAI