HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois
LLM
GPU
Transformer

NVIDIA Blackwell Ultra double la vitesse du softmax pour accélérer l’inference des LLM à long contexte

L’augmentation de la longueur des contextes dans les modèles de langage à grande échelle (LLM) entraîne une évolution vers des architectures d’attention plus complexes, comme l’attention latente à plusieurs têtes (MLA) ou l’attention par requêtes groupées (GQA). Cette évolution fait passer le goulot d’étranglement de la performance non plus par le débit massif des multiplications matricielles, mais par le calcul intensif des fonctions transcendantes, notamment la fonction exponentielle naturelle utilisée dans le softmax. Ces fonctions, qui ne peuvent pas être exprimées comme des racines d’équations polynomiales à coefficients rationnels, dépassent les opérations algébriques de base que les Tensor Cores maîtrisent parfaitement. Dans l’architecture NVIDIA, cette exponentielle est exécutée via l’instruction MUFU.EX2 sur les unités spéciales de fonctions (SFU), créant un goulot d’étranglement : les puissants co-processeurs matriciels doivent attendre que les SFU terminent leurs calculs pour poursuivre la phase d’agrégation des contextes. La nouvelle génération NVIDIA Blackwell Ultra résout ce problème en doublant le débit des SFU pour les opérations exponentielles. Cette optimisation matérielle élimine les temps d’attente dans la boucle d’attention, permettant aux Tensor Cores de rester pleinement utilisés. Le fonctionnement de l’attention repose sur le calcul de produits scalaires entre les requêtes (queries) et les clés (keys) de chaque mot (token) dans une séquence, suivis d’une normalisation par softmax pour obtenir des poids probabilistes qui s’additionnent à 1. Ce processus est essentiel pour que le modèle s’adapte au contexte, comme lorsqu’il distingue deux sens du mot « dog » dans des phrases différentes. Cependant, pour une séquence de 8 192 tokens, la matrice d’attention atteint 67 millions d’éléments, et la normalisation exponentielle devient quadratiquement coûteuse. Sur Blackwell (GB200), la boucle d’attention montre un décalage temporel entre la première multiplication matricielle (BMM1) et la seconde (BMM2), car cette dernière ne peut démarrer qu’après la fin du softmax. Les Tensor Cores restent inactifs pendant cette période. Avec Blackwell Ultra (GB300), grâce à la double capacité des SFU, la durée du softmax est réduite de près de 50 %, ce qui rapproche significativement les deux phases et maximise l’activité des co-processeurs matriciels. Un micro-benchmark isolant l’instruction MUFU.EX2 confirme ce gain : les performances en FLOPs sont deux fois supérieures sur GB300 par rapport à GB200, quelle que soit la précision (FP8, FP16, etc.). Dans un modèle GQA comme DeepSeek-V3, cette amélioration se traduit par une augmentation de 35 % du débit de propagation avant (FPROP) en précision FP8. Ce gain est particulièrement marqué car, dans les formats à faible précision, le temps consacré au softmax représente une part croissante du cycle total. Ainsi, l’optimisation des unités non linéaires devient aussi cruciale que l’optimisation des Tensor Cores. En résumé, Blackwell Ultra ne se contente pas d’améliorer les performances brutes, mais corrige un goulot d’étranglement fondamental dans les architectures modernes : l’asymétrie entre le calcul linéaire ultra-rapide et le calcul transcendantal lent. Cette avancée, rendue possible par une conception matérielle-logicielle poussée, ouvre la voie à des inférences plus rapides et à des modèles capables de traiter des contextes bien plus longs sans perte de performance. Pour les développeurs, NVIDIA met à disposition des benchmarks via le dépôt trtllm-gen, permettant d’exploiter pleinement cette accélération.

Liens associés

NVIDIA Blackwell Ultra double la vitesse du softmax pour accélérer l’inference des LLM à long contexte | Articles tendance | HyperAI