Nemotron-Labs : génération de texte à vitesse lumière
Nvidia a lancé la famille de modèles Nemotron-Labs Diffusion, une innovation majeure visant à accélérer la génération de texte en s'éloignant de l'approche purement séquentielle traditionnelle. Les grands modèles de langage (LLM) fonctionnent généralement de manière autoregressive, produisant un jeton à la fois où chaque élément dépend du précédent. Bien que stable, cette méthode limite la performance car elle oblige à charger les poids de la mémoire à chaque étape, laissant le temps de calcul des GPU sous-exploité. De plus, elle empêche la révision des erreurs une fois le jeton généré. Nemotron-Labs Diffusion introduit les modèles de diffusion linguistique (DLM) capables de générer plusieurs jetons en parallèle et de les affiner itérativement. Cette approche permet une utilisation plus efficace des ressources matérielles et offre la possibilité de corriger le texte généré. La famille de modèles inclut des versions de 3, 8 et 14 milliards de paramètres pour le texte, ainsi qu'un modèle vision-langue de 8 milliards, tous disponibles sous des licences commerciales ou de recherche flexibles. Le code d'entraînement est également publié via le framework Megatron Bridge de Nvidia. Une caractéristique clé de cette architecture est l'intégration de trois modes de génération au sein d'un seul modèle. Le mode autoregressive assure une compatibilité totale avec les workflows actuels des développeurs. Le mode diffusion génère par blocs en plusieurs étapes, exploitant le parallélisme. Enfin, le mode auto-spéculation utilise la diffusion pour proposer des candidats de jetons que le mode autoregressive vérifie ensuite. Ce système hybride permet aux développeurs d'ajuster les performances en temps réel, en réduisant le nombre d'étapes de raffinement si nécessaire pour limiter la consommation de ressources, sans modifier leur application. Les tests de performance montrent que le modèle Nemotron-Labs Diffusion 8B surpasse le Qwen3 8B en précision de 1,2 %. En termes de vitesse, le mode diffusion offre un débit de jetons par passage avant (TPF) 2,6 fois supérieur aux modèles autoregressifs classiques. Le mode auto-spéculation améliore encore ces résultats, atteignant jusqu'à 6,4 fois plus de jetons par passage tout en maintenant une précision comparable. L'entraînement a été réalisé en combinant des objectifs autoregressifs et de diffusion, permettant au modèle de conserver les capacités acquises lors de l'apprentissage initial tout en ajoutant le pouvoir du dessin parallèle. Les données proviennent de 1,3 trillion de jetons pour le pré-entraînement et de 45 milliards de jetons pour l'ajustement supervisé. La déployabilité de ces modèles sera prise en charge dans la branche principale de SGLang, une plateforme de déploiement. L'intégration permet de servir le même point de contrôle via trois configurations différentes, accessibles par une simple modification de la configuration d'algorithme. Cette mise à disposition facilite l'adoption de la génération par diffusion, offrant aux développeurs une alternative pour rédiger, affiner et accélérer la production de texte sans nécessiter de refonte majeure de leurs applications. Nvidia ouvre ainsi la voie à des générations de texte ultra-rapides et révisables, combinant la fiabilité des modèles autoregressifs avec l'efficacité de la diffusion.
