Nvidia lance Nemotron 3 : son modèle ouvert bat les concurrents en vitesse et efficacité, tout en restant gratuit grâce à sa domination du hardware AI
Nvidia se distingue comme le seul acteur majeur dans le domaine de l’IA capable de proposer gratuitement ses modèles d’intelligence artificielle, grâce à sa position dominante dans le marché des puces haut de gamme. Alors que des géants comme OpenAI, Anthropic ou Google s’orientent vers des modèles fermés, et que Meta envisage de basculer vers des modèles propriétaires (comme Avocado), Nvidia double la mise sur ses modèles open source Nemotron. Cette stratégie repose sur une combinaison unique : une infrastructure de calcul à très grande échelle, contrôlée en interne, et un business hardware extrêmement lucratif. Grâce à cela, Nvidia peut subventionner le développement de ses modèles — dont la version Nemotron 3, récemment dévoilée — tout en facturant peu pour son stack logiciel AI Enterprise (4 500 $ par GPU par an), un tarif modique par rapport au coût d’un GPU Blackwell (35 000 à 45 000 $). Cette approche rappelle le modèle historique d’IBM avec ses systèmes System/360, où le matériel coûteux était accompagné de services logiciels et d’assistance gratuits. Aujourd’hui, Nvidia vise une intégration complète de la pile technologique — du silicium au logiciel — en s’imposant comme une véritable « utility » en IA, bien au-delà du simple fournisseur de matériel. Le succès de cette stratégie repose sur une longue expertise en modèles open source : depuis Megatron-LM (2019), en passant par Megatron-Turing NLG (2021), jusqu’à la suite NeMo, outil fondamental pour construire les Nemotron. Les Nemotron 3, annoncés récemment, incarnent une avancée technologique majeure. Ils combinent l’architecture Transformer (efficace pour le traitement de grandes séquences) avec Mamba, une approche d’état sélectif développée par Carnegie Mellon et Princeton, qui réduit drastiquement la mémoire nécessaire. Cette hybridation permet une meilleure efficacité en mémoire et en vitesse, notamment grâce à une architecture à mélanges d’experts (MoE) latents. Dans les versions Super et Ultra, les experts partagent un noyau commun tout en conservant des paramètres privés — une métaphore de « chefs partageant une cuisine commune mais utilisant leurs propres épices ». Cela permet jusqu’à 4 fois plus d’experts sans pénaliser les performances. Le Nemotron 3 Nano (30 milliards de paramètres, 3 milliards actifs) tient sur un seul GPU L40S, tandis que les versions Super (100 milliards, 10 milliards actifs) et Ultra (500 milliards, 50 milliards actifs) visent des performances maximales. Le modèle repose sur une préformation sur un corpus de 25 billions de tokens, en précision NVFP4 (4 bits), et intègre une fenêtre contextuelle allant jusqu’à 1 million de tokens. La phase d’entraînement repose fortement sur le renforcement (reinforcement learning), contrairement aux versions précédentes qui utilisaient davantage l’apprentissage supervisé. Les benchmarks d’Artificial Analysis montrent une amélioration significative : Nemotron 3 Nano bat largement ses prédécesseurs en débit de tokens par seconde, tout en conservant une haute précision. Sur les graphiques de performance, il se positionne clairement en haut à droite, et sur l’indice d’ouverture, il se distingue par sa transparence et sa capacité à être utilisé librement. Si Nvidia propose un support technique en complément de son stack AI Enterprise, il pourrait ainsi concurrencer les modèles fermés sans avoir à fixer des prix élevés, se contentant de couvrir ses coûts de développement. En somme, Nvidia ne se contente pas de vendre des puces : il construit un écosystème ouvert, performant et rentable, où la gratuité des modèles sert de levier stratégique pour dominer l’infrastructure de l’IA. Cette position unique, fondée sur la verticalité et la rentabilité du hardware, en fait le seul acteur capable de jouer ce jeu à long terme.
