HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA et Mistral AI lancent des modèles ouverts accélérés par NVIDIA

Mistral AI a lancé aujourd’hui la famille de modèles open source Mistral 3, conçus pour offrir une précision, une efficacité et une personnalisation sans précédent aux développeurs et aux entreprises. Ces modèles, optimisés pour une large gamme de plateformes — depuis les supercalculateurs NVIDIA GB200 NVL72 jusqu’aux dispositifs embarqués — incluent notamment Mistral Large 3, un modèle à mélanges d’experts (MoE) avec 675 milliards de paramètres au total, dont 41 milliards actifs, et une fenêtre contextuelle de 256K tokens. Grâce à son architecture MoE, le modèle n’active que les parties les plus pertinentes pour chaque token, réduisant ainsi les coûts computationnels sans sacrifier la précision. Mistral Large 3, entraîné sur des GPU NVIDIA Hopper, est désormais disponible sur Hugging Face. Il s’adapte à diverses configurations matérielles et précisions (BF16, FP8, Q4_K_M, NVFP4), avec un support complet des frameworks open source comme vLLM, SGLang, TensorRT-LLM, Llama.cpp et Ollama. Sur le système NVIDIA GB200 NVL72, il atteint des performances supérieures à 5 millions de tokens par seconde par mégawatt, soit une amélioration de 10 fois par rapport à la génération précédente (H200). Cette avancée repose sur des optimisations clés : le parallélisme d’experts élargi (Wide-EP) pour exploiter pleinement le domaine mémoire cohérent du NVLink, la quantification NVFP4 pour une efficacité élevée avec une perte minimale de précision, et le cadre distribué NVIDIA Dynamo, qui décompose les phases de préparation et de décodage pour améliorer les performances sur les charges longues. Les modèles Ministral 3 (3B, 8B, 14B), quant à eux, sont conçus pour les déploiements embarqués. Ils sont optimisés pour des plateformes comme les PC AI NVIDIA RTX, les serveurs DGX Spark et les dispositifs NVIDIA Jetson. Grâce à des collaborations avec Ollama et Llama.cpp, ils offrent des temps de réponse rapides — jusqu’à 385 tokens par seconde sur une RTX 5090 — tout en préservant la confidentialité des données. Sur Jetson Thor, ils atteignent jusqu’à 273 tokens par seconde avec une concurrence de 8. Les modèles sont disponibles dès maintenant via Hugging Face ou via une version sans déploiement sur build.nvidia.com/mistralai. Une intégration avec les outils NVIDIA NeMo permet aux entreprises de personnaliser rapidement les modèles pour leurs cas d’usage spécifiques. Des microservices NVIDIA NIM seront bientôt disponibles pour un déploiement simplifié sur toute infrastructure accélérée par GPU. Enfin, Mistral 3 s’inscrit dans une vision plus large de l’intelligence distribuée, reliant les avancées de la recherche aux applications concrètes. Grâce à des optimisations logicielles et matérielles, cette famille de modèles ouvre la voie à une IA accessible, efficace et évolutif, du cloud à l’edge. Elle renforce ainsi l’écosystème open source et accélère l’innovation dans le domaine de l’intelligence artificielle.

Liens associés