HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten
LLM
GPU
Transformer

NVIDIA Blackwell Ultra beschleunigt Softmax für effizientere KI-Infere Die neue Architektur verdoppelt die SFU-Leistung und beseitigt so den Softmax-Engpass in großen Sprachmodellen.

Die kontinuierliche Verlängerung der Kontextlängen in großen Sprachmodellen (LLMs) und die Einführung komplexer Aufmerksamkeitsarchitekturen wie Multi-Head Latent Attention (MLA) und Grouped Query Attention (GQA) verlagern die Leistungsgrenze von KI-Systemen zunehmend von der Durchsatzleistung von Matrixmultiplikationen hin zu den rechenintensiven transzendenten Funktionen – insbesondere der Softmax-Funktion. Diese Funktion, die die Rohscores aus der Dot-Product-Aufmerksamkeit in Wahrscheinlichkeiten umwandelt, ist der Hauptverursacher einer „Leistungs-Kluft“ bei langen Eingabesequenzen. Denn sie erfordert exponentielle Berechnungen, die auf den Special Function Units (SFUs) der GPU ausgeführt werden. In NVIDIA-Assembly (SASS) wird diese Operation durch die MUFU.EX2-Anweisung realisiert. Da SFUs deutlich langsamer sind als Tensor Cores, entsteht ein Engpass: Während die leistungsstarken Matrix-Engines warten, bleiben sie untätig. Dies führt zu erheblichen Pufferungen im Rechenpipeline. Die NVIDIA Blackwell Ultra-Architektur löst dieses Problem, indem sie die Durchsatzkapazität der SFUs für Exponentialfunktionen verdoppelt. Dadurch wird der Softmax-Engpass erheblich abgebaut. Vergleiche zwischen der Standard-Blackwell-Architektur (GB200) und Blackwell Ultra (GB300) zeigen deutlich reduzierte Latenzen im Softmax-Block: In der Aufmerksamkeits-Schleife (Attention Loop) verringert sich die Dauer der Softmax-Berechnung um fast 50 %, was die Wartezeit zwischen der ersten Matrixmultiplikation (BMM1) und der zweiten (BMM2) drastisch verkürzt. Die Tensor Cores können nun nahezu kontinuierlich arbeiten, was zu einer höheren Auslastung und insgesamt schnelleren Inferenzgeschwindigkeit führt. Ein synthetischer Microbenchmark mit dem Kernel exp2-bg300.cu bestätigt die theoretischen Erwartungen: Bei allen Datentypen – insbesondere in FP8 – zeigt GB300 etwa die doppelte FLOP-Leistung gegenüber GB200. Bei der Vorwärtspropagation (FPROP) in GQA-Modellen wie DeepSeek-V3 erreicht man eine Steigerung der Durchsatzleistung um rund 35 % bei FP8. Dies ist besonders signifikant, da in niedrigen Präzisionsformaten wie FP8 die Matrixoperationen bereits extrem schnell sind und die Softmax-Zeit einen größeren Anteil der Gesamtzeit ausmacht. Diese Verbesserung unterstreicht einen entscheidenden Punkt: Die Zukunft der KI-Inferenz hängt nicht nur von schnelleren Tensor Cores ab, sondern auch von der Beschleunigung nichtlinearer, transzendenter Berechnungen. Blackwell Ultra adressiert genau diesen Aspekt durch eine enge Hardware-Software-Optimierung, unterstützt durch Technologien wie TensorRT-LLM. Die Ergebnisse zeigen, dass die Optimierung der SFUs ein Schlüssel zur Skalierung von LLMs mit langen Kontexten ist. Industrieexperten sehen in dieser Entwicklung einen Paradigmenwechsel: „Die Leistungsgrenze liegt nun nicht mehr nur im linearen Rechnen, sondern in der Fähigkeit, nichtlineare Funktionen mit hoher Effizienz zu bewältigen“, so ein Expertenkommentar. Mit Blackwell Ultra zeigt NVIDIA, dass die nächste Generation von AI-Hardware nicht nur mehr Rechenleistung, sondern auch intelligente Spezialisierung erfordert. Die Architektur ist Teil eines umfassenden Ansatzes, der die gesamte Aufmerksamkeits-Schleife beschleunigt – ein entscheidender Schritt für die Zukunft von generativer KI. Weitere Benchmarks und Implementierungstipps finden sich im NVIDIA-Repository trtllm-gen.

Verwandte Links

NVIDIA Blackwell Ultra beschleunigt Softmax für effizientere KI-Infere Die neue Architektur verdoppelt die SFU-Leistung und beseitigt so den Softmax-Engpass in großen Sprachmodellen. | Aktuelle Beiträge | HyperAI