HyperAIHyperAI
Back to Headlines

Nvidia revolutioniert Inferenz mit disaggregierten GPUs für kosteneffizienten Langkontext-IA

vor 10 Tagen

Ab Mitte 2026 bis Anfang 2027 könnte ein Höhepunkt im Investitionsaufwand für XPU-beschleunigte Systeme für KI-Arbeitslasten eintreten – vor allem getrieben von Hyperscalern, Cloud-Anbietern und führenden KI-Modellentwicklern wie OpenAI. Gleichzeitig steigt die Nachfrage nach HBM-Stacks, da die Anforderungen an Speicherdichte, Bandbreite und Stapelhöhe weiter ansteigen. Doch die Herstellung von HBM wird zunehmend schwieriger, was zu sinkenden Ausbeuten führt. Die Folge: Ein massiver Engpass zwischen Angebot und Nachfrage, der die KI-Infrastruktur unter Druck setzt. Um diesem Problem entgegenzuwirken, hat Nvidia mit dem „Rubin CPX“ eine neue Strategie vorgestellt: die Disaggregation von Inferenzarbeitslasten. Statt auf teuren, HBM-lastigen GPUs für den gesamten Inferenzprozess zu setzen, wird nun der Kontextverarbeitung (Prefill) und der Token-Generierung (Decode) jeweils eine spezialisierte Hardware zugewiesen. Der Rubin CPX, ein kostengünstiger, GDDR7-basierter Accelerator, konzentriert sich auf die rechenintensive, aber nicht speicherbandbreitenkritische Kontextverarbeitung – insbesondere für Anwendungen mit langen Kontextfenstern (ab 1 Mio. Tokens), wie Codegenerierung oder Video-Generation. Durch die Trennung von Prefill und Decode kann Nvidia die Effizienz deutlich steigern: Zwei Rubin CPX-GPUs ermöglichen bis zu 6-fache Durchsatzsteigerung gegenüber einer einzigen HBM-GPU, bei nur 2,25-fach höherem Compute-Aufwand. Dies wird durch eine KV-Cache-Verbindung zwischen den Chips erreicht, die die Wiederholung des gesamten Kontexts bei jeder Token-Generierung vermeidet. Die Architektur des Rubin CPX basiert auf dem gleichen Chiplet-Design wie die zukünftigen Rubin R100/R200-GPUs, unterscheidet sich aber durch geringere Speicherkapazität (128 GB GDDR7) und Bandbreite (ca. 2,1 TB/s), was die Kosten drastisch senkt. Ein weiterer Vorteil ist die integrierte Aufmerksamkeitsbeschleunigung (Attention Acceleration Cores), die Nvidia in der Rubin-Architektur verstärkt hat. Da Aufmerksamkeitsberechnungen rechenintensiv, aber nicht bandbreitenkritisch sind, eignet sich der Rubin CPX ideal für diese Aufgabe. Im Gegensatz zu Blackwell, das keine solchen Kerne besitzt, ist Rubin speziell auf die Effizienz moderner KI-Modelle ausgerichtet. Die Vera Rubin NVL144-Rack-Plattform, die 144 Rubin CPX-GPUs integriert, bietet 3,6 Exaflops bei FP4-Präzision und 1,7 PB/s Speicherbandbreite. Mit 8 CPX-Blöcken zwischen Netzwerkschnittstelle und Hauptprozessor steigt die Rechenleistung auf 4,4 Exaflops und die Speicherkapazität auf 25 TB. Nvidia gibt an, dass pro 100 Mio. USD Investition in solche Systeme über vier Jahre etwa 5 Mrd. USD an Einnahmen aus Token-Input/Output-Streams generiert werden können – eine beeindruckende Rendite. Die Disaggregation erlaubt auch flexible Skalierung: Separate Vera Rubin- und Vera Rubin CPX-Server können direkt miteinander kommunizieren, ohne NVLink-Switches. Die Architektur ermöglicht zudem eine hohe Skalierbarkeit – bis zu 288 CPX-GPUs pro Rack. Bewertung: Industrieexperten sehen in der Rubin CPX-Strategie einen Meilenstein in der KI-Infrastruktur-Optimierung. „Nvidia nutzt nicht nur Kosteneffizienz, sondern setzt auf intelligente Arbeitsteilung“, sagt ein Analyst von Moor Insights & Strategy. „Die Disaggregation ist die Antwort auf die HBM-Knappheit – und die Aufmerksamkeitsbeschleunigung macht den Rubin CPX zu einem echten Wettbewerbsvorteil.“ Nvidia positioniert sich damit nicht nur als Hardware-Lieferant, sondern als Architekt von effizienten, skalierbaren KI-Workflows. Die Einführung des Rubin CPX im Jahr 2026 könnte den Markteintritt kostengünstigerer, leistungsfähigerer KI-Infrastrukturen beschleunigen – und die Wettbewerbsbedingungen im Datacenter- und Cloud-Sektor nachhaltig verändern.

Related Links

Nvidia revolutioniert Inferenz mit disaggregierten GPUs für kosteneffizienten Langkontext-IA | Schlagzeilen | HyperAI