HyperAI超神经

Moderne KI-Anwendungen setzen zunehmend auf Modelle, die riesige Parameterzahlen und Kontextfenster mit Millionen von Tokens verbinden. Dies betrifft beispielsweise KI-Agenten, die über Monate hinweg Konversationen fortsetzen, rechtliche Assistenten, die durch Gigabytes von Rechtsfällen navigieren, oder Codierungs-Copiloten, die umfangreiche Repositorien durchsuchen. Die Erhaltung des langfristigen Kontexts ist entscheidend für Relevanz und Kohärenz. Gleichzeitig erwarten Benutzer schnelle, interaktive Antworten. Die steigende Nachfrage nach der Verarbeitung solcher Massendaten und die Möglichkeit, mehrere GPUs schnell zu skalieren und miteinander zu kommunizieren, betonen die Bedeutung von FP4-Rechnen und dem hochbandbreiten großen NVLink-Domänen, die NVIDIA Blackwell-Systeme bieten. Helix Parallelismus, der in diesem Blog eingeführt wird und mit Blackwell ko-entwickelt wurde, ermöglicht eine bis zu 32-fache Steigerung der gleichzeitigen Benutzer bei einer gegebenen Latenz im Vergleich zu bekannten Parallelisierungsmethoden für die Echtzeit-Decodierung mit ultralangen Kontexten. Mit anderen Worten, es ermöglicht KI-Agenten und virtuellen Assistenten, mehr Menschen schneller als je zuvor zu bedienen. Decodierungsbottlenecks: KV-Cache und FFN-Gewichtsläsungen Um die Echtzeit-Decodierung skaliert zu unterstützen, muss ein System zwei Hauptbottlenecks überwinden: den Datenstrom des KV-Caches und das Laden von FFN-Gewichten. Diese beiden Herausforderungen sind mit traditionellen Parallelisierungsstrategien schwierig gleichzeitig zu optimieren. Als Beispiel sei Tensor Parallelismus (TP) genannt: Eine Steigerung des TP kann FFN-Stops reduzieren, indem das Gewichtsladen auf mehrere GPUs verteilt wird und die TTL verbessert, aber nur bis zu einem gewissen Punkt. Bei Aufmerksamkeitsverfahren wie Grouped Query Attention (GQA), das in Llama-Modellen verwendet wird, oder Multi-Latent Attention (MLA), das in DeepSeek-Modellen vorkommt, teilen mehrere Abfrage-Köpfe eine begrenzte Anzahl von KV-Köpfen. Wenn TP die Anzahl der KV-Köpfe überschreitet, wird der KV-Cache pro Stichprobe auf mehreren GPUs dupliziert, was wiederum die DRAM-Bandbreite saturiert und die Skalierbarkeit einschränkt. Im Fall von MLA beträgt die obere Grenze für TP eins, um eine Duplikation des KV-Caches zu vermeiden. Helix-Verarbeitungsablauf Helix ist eine hybride Schardierungsstrategie, die die Parallelisierungsstrategien von Aufmerksamkeit und FFNs in einer zeitlichen Pipeline entkoppelt. Dies löst sowohl die Bottlenecks des KV-Caches als auch die des FFN-Gewichtsladens während der Decodierung mit Millionen von Tokens effektiv. Abbildung 1 zeigt, wie Helix die Ausführung von Aufmerksamkeit und FFN innerhalb einer einzelnen Transformer-Schicht orchestriert. Inspiriert von der Struktur von DNS-Helixen, verschränkt Helix verschiedene Dimensionen der Parallelität – KV, Tensor und Experte – in einer vereinten Ausführungs-Schleife. Durch die Entkopplung der Parallelisierungsstrategien für Aufmerksamkeit und FFN kann jeder Schritt in einer für seine eigenen Bottlenecks optimierten Konfiguration ausgeführt werden, wobei die gleiche GPU-Pool verwendet wird. Die Helix-Reuse-Methode sorgt für eine effiziente Nutzung der GPUs über alle Schritte hinweg, eliminiert Leerlaufzeiten und beschleunigt die Modellausführung. Aufmerksamkeitsphase Helix wendet KV-Parallelismus (KVP) an, indem der mehrmillionen-Token-KV-Cache entlang der Sequenzdimension auf KVP GPUs geschardet wird, während Tensor-Parallelismus über die Aufmerksamkeitsköpfe (TPA) verteilt wird. Dabei wird die Anzahl der GPUs, auf die jedes QKV-Projektion aufgeteilt wird, kleiner oder gleich der Anzahl der KV-Köpfe gehalten, um Duplikationen zu vermeiden. Diese Schardierungsstrategie wird in Abbildung 2(d) durch ein vereinfachtes Beispiel illustriert. Dies führt dazu, dass insgesamt N=KVPxTPA GPUs zusammenarbeiten, ohne den KV-Cache zu duplizieren. N repräsentiert hier die gesamte Anzahl der GPUs, die für die End-zu-End-Ausführung verwendet werden. Derselbe GPU-Pool wird in der FFN-Phase wiederverwendet. Um eine vorherige Aufmerksamkeits-All-Gather zu vermeiden, stellt Helix sicher, dass jede KVP GPU alle zu ihren lokalen KV-Köpfen gehörenden Abfrage-Köpfe hält und die QKV-Projektionen redundant berechnet. Dies ermöglicht eine vollständig lokale FlashAttention auf jedem KV-Segment. Nach der lokalen FlashAttention erfolgt ein einzelner All-to-All-Schritt, der die teilweisen Aufmerksamkeitsoutputs und Log-Sum-Exp-Skalare über die Abfragekopf-Dimension auf KVP GPUs austauscht. Der Kommunikationsaufwand skaliert dabei mit der Batch-Größe und der verborgenen Dimension, aber unabhängig von der Länge des KV-Caches. Jede GPU rekonstruiert lokal die exakten SoftMax-normalisierten Outputs. Dieser All-to-All-Schritt löst auch die Wiederzuordnung der KVP GPUs in eine TP-Gruppe (TP = N = KVP x TPA) für die lineare Berechnung des Aufmerksamkeitsoutputs aus. Kritisch ist dabei, dass dieser All-to-All-Schritt von NVLink/NVL72s hochbandiger Interconnect profitiert, was eine schnelle kollektive Kommunikation über große GPU-Zahlen ermöglicht. FFN-Phase Nach der Aufmerksamkeitsphase wird der gleiche Pool von N=KVPxTPA GPUs ohne Leerlaufzeiten für die Ausführung des FFN-Blocks wiederverwendet. Der Output des All-to-All-Schritts ist bereits nach verborgener Dimension über N GPUs partitioniert, was die post-Aufmerksamkeits-Lineare-Projektion sofort im TP-Modus (TP=N) ausführen lässt. Jede GPU führt eine lokale Matrixmultiplikation mit ihrem Gewichtssegment durch und nimmt an einem All-Reduce über TP=N GPUs teil, um den korrekten Output zu bilden. Nach der post-Aufmerksamkeits-Linearen-Projektion rekonfiguriert Helix den gleichen Pool von N GPUs für die FFN-Berechnung. In dichten Modellen wird dies durch eine 1D-TP (N=TPF) Layout-Strategie erreicht, in MoE-Modellen durch ein 2D-TP x Expert-Parallel (N=TPFxEP) Gitter. Verteilter KV-Konkatenation Während der Decodierung wird jeder neue Token an alle KVP GPUs weitergeleitet, um die Abfrageberechnung durchzuführen. Um DRAM-Heißpunkte zu vermeiden, verteilt Helix die KV-Cache-Updates in einer Round-Robin-Weise über die KVP-Ränge, z.B. Tokens 1 bis 16 gehen an KVP 0, Tokens 17 bis 32 an KVP 1 usw. Dies gewährleistet einen gleichmäßigen KV-Wachstum, balanciert die Speichernutzung über die GPUs und erhält eine konsistente Durchsatzleistung, unabhängig von der Sequenzlänge oder der Batch-Größe. Simulierte Ergebnisse auf Blackwell Helix setzt neue Leistungsstandards für die Decodierung von LLMs mit langen Kontexten. Abbildung 4 zeigt die normierte Durchsatz-Latenz-Pareto-Front für DeepSeek-R1 671B bei einer (hypothetischen) 1-Million-Token-Kontextlänge. Die Pareto-Front wird durch eine umfassende Simulation über tausende Konfigurationen abgeleitet, bei denen die Modelle Partitionierungsstrategien (TP, EP, PP und KVP) und Batch-Größen systematisch variiert werden, um die besten Durchsatz-Latenz-Kompromisse zu finden. Durch die Schardierung sowohl des KV-Caches als auch der FFN-Gewichte über alle verfügbaren Geräte wurde der DRAM-Druck drastisch reduziert und die Recheneffizienz verbessert. Helix schiebt die Durchsatz-Latenz-Pareto-Front nach vorn, was höhere Durchsätze selbst bei niedrigerer Latenz ermöglicht. Weitere Details finden Sie im Paper hier. Fazit Helix Parallelismus, der mit den neuesten Funktionen von Blackwell ko-entwickelt wurde, bietet eine Vorlage, wie mehrmillionen-Token-Modelle skaliert bedient werden können, ohne die Interaktivität zu beeinträchtigen. Bleiben Sie dran, während wir diese Optimierung in Inferenz-Frameworks integrieren. Bewertung durch Branchenkenner Experten im Bereich Künstliche Intelligenz und Hardwareoptimierung beurteilen Helix Parallelismus sehr positiv. Sie sehen darin einen wesentlichen Fortschritt, der es ermöglicht, hochkomplexe Modelle mit langen Kontexten effizient und interaktiv zu betreiben. NVIDIA Blackwell-Systeme, auf die Helix Parallelismus abgestimmt ist, werden als Schlüsseltechnologie zur Skalierung von KI-Modellen in der Zukunft angesehen.

Helix-Parallelismus optimiert die Verarbeitung riesiger AI-Modelle.

Related Links