HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un jour
NVIDIA
LLM

NVIDIA publie Nemotron 3 Ultra NVFP4, 5,9x plus rapide

NVIDIA a présenté son checkpoint Nemotron 3 Ultra quantifié en format NVFP4, une avancée majeure pour l'optimisation des grands modèles de langage sur son matériel récent. Le modèle, comptant 550 milliards de paramètres, est désormais capable de fonctionner avec une précision hybride qui allège considérablement son empreinte mémoire tout en préservant sa performance. Grâce à cette quantification, le poids du modèle passe de 1 121 gigaoctets en format BF16 à 352,3 gigaoctets, soit une réduction de plus de trois fois. Sur des charges de travail privilégiant le décryptage, le modèle NVFP4 offre un débit d'inférence jusqu'à 5,9 fois supérieur à celui du modèle GLM-5.1 754B en FP4, tout en maintenant une précision équivalente à celle du format BF16 sur la quasi-totalité des benchmarks testés. Cette optimisation permet également de diviser par deux les besoins en ressources matérielles, facilitant le déploiement de modèles de grande envergure. La force de cette approche réside dans son utilisation d'une précision mixte. Contrairement à une idée reçue, tous les composants du réseau ne sont pas convertis en NVFP4. Certaines couches sensibles, comme les projections d'attention, conservent le format BF16, tandis que les experts partagés et les modules Mamba utilisent du FP8. Les experts routés, qui représentent la majeure partie de la charge, sont quantifiés en NVFP4. Cette hiérarchisation minimise la perte d'information et stabilise la qualité des sorties. Pour affiner cette conversion, l'équipe de NVIDIA a développé une méthode d'échelle dite four-over-six. Le format NVFP4 ne dispose que de huit valeurs positives représentables, avec un écart important entre 4 et 6. Cette technique permet à chaque bloc de poids de choisir dynamiquement entre deux échelles de référence, réduisant ainsi les erreurs d'arrondi et améliorant la reconstruction des données. Combinée à une optimisation du nombre moyen de bits par élément, stabilisé à 5,03 bits, cette stratégie atteint le meilleur équilibre entre taille et précision. Le développement de ce checkpoint repose entièrement sur NVIDIA Model Optimizer, un outil conçu pour paralléliser et accélérer le processus de quantification. En s'appuyant sur le framework Megatron-LM, l'optimisation s'exécute sur plusieurs cartes graphiques simultanément, ramenant le temps de calibration de plus de cent minutes à environ neuf minutes sur du matériel haute performance. Le checkpoint final est conçu pour une double compatibilité : il s'adapte automatiquement aux puces Hopper en utilisant un format équivalent en mémoire, et exploite les cœurs tensoriels natifs en W4A4 sur l'architecture Blackwell. Cette publication marque une étape significative vers l'accessibilité des modèles de grande taille. En rationalisant la quantification et en proposant des configurations reproductibles via des fichiers YAML, NVIDIA fournit aux développeurs une feuille de route claire pour adapter leurs propres architectures. Cette démarche ne se contente pas d'optimiser les performances matérielles ; elle démontre comment des méthodes de compression avancées peuvent prolonger la viabilité économique et technique des déploiements d'intelligence artificielle sur le long terme.

Liens associés