MiniMax M3 déployé sur NVIDIA
MiniMax a présenté MiniMax M3, un modèle de langage multimodal de 428 milliards de paramètres conçu pour fonctionner efficacement sur les infrastructures accélérées d'NVIDIA, dont les GPU Blackwell. Cette nouvelle architecture vise à remplacer les pipelines IA fragmentés actuellement utilisés par les entreprises, qui combinent souvent des modèles distincts pour le texte, l'image et la vidéo, entraînant complexité accrue et coûts élevés. MiniMax M3 unifie ces capacités dans un seul système capable de raisonner sur de longs contextes jusqu'à un million de tokens et d'exécuter des workflows agents complexes. Le modèle repose sur une architecture MoE qui active uniquement 22 milliards de paramètres par token, optimisant ainsi l'utilisation des ressources graphiques. Son innovation centrale est le MiniMax Sparse Attention, qui remplace l'attention standard par un pré-calcul filtrant les blocs de contexte pertinents. Cette approche permet un accès mémoire contigu, réduisant la charge de calcul par token à un vingtième de celle du modèle précédent M2, tout en accélérant le préremplissage de neuf fois et le décodage de quinze fois sans perte de précision. Contrairement à beaucoup de concurrents qui ajoutent le multimodal après l'entraînement, MiniMax M3 a été formé nativement de zéro sur près de 100 billions de tokens mêlant texte, images et vidéos. Pour les développeurs, le déploiement s'appuie entièrement sur l'écosystème NVIDIA. Le modèle est directement accessible via le catalogue d'API GPU d'NVIDIA, permettant de tester les paramètres et les contrôles de raisonnement avant l'intégration. Il est également compatible avec les moteurs d'inférence open source populaires comme TensorRT LLM, SGLang et vLLM. NVIDIA a développé des outils de production prêts à l'emploi, incluant des conteneurs Docker optimisés et des guides de configuration pour le faible latence ou le haut débit. Pour les charges de travail à grande échelle, la plateforme open source NVIDIA Dynamo offre un service disagreggé qui sépare physiquement les phases de préremplissage et de décodage sur des GPU distincts. Cette architecture améliore l'interactivité de quatre fois sur les architectures Blackwell aux séquences de 32 000 tokens, sans augmenter le budget matériel. Dynamo s'intègre aux principaux frameworks et propose un routage intelligent, un autoscaling élastique et des transferts de données à faible latence. En complément, le framework NeMo d'NVIDIA permet aux équipes de personnaliser et d'affiner le modèle selon leurs besoins spécifiques grâce à des outils expérimentaux légers. MiniMax M3 ouvre ainsi la voie à des applications exigeantes telles que l'analyse vidéo longue, la génération de code sur des sessions prolongées de plus de huit heures, ou la création de workflows de design haute fidélité. Les développeurs peuvent dès à présent prototyper via la plateforme build.nvidia.com ou télécharger les pondérations du modèle sur Hugging Face, accélérant le passage à la production d'applications IA unifiées et performantes.
