HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA stellt heterogene Inferenzarchitektur Vera Rubin + LPX vor und zielt auf die Ära der KI mit niedriger Latenz sowie von Agents ab

Auf der diesjährigen NVIDIA GPC präsentierte NVIDIA eine neue Architekturkombination für KI-Inferenzszenarien der nächsten Generation: Vera Rubin NVL72-GPUs und das Groq-System mit drei LPX-Einheiten. Das Kernziel dieser Kombination besteht darin, einen zunehmend kritischen Widerspruch in aktuellen KI-Anwendungen zu lösen – nämlich wie bei gleichzeitig hoher Durchsatzleistung niedrige Latenz und ein vorhersehbares interaktives Erlebnis gewährleistet werden können. Das LPX ist ein auf Rack-basiertes Deployment ausgelegtes System zur Beschleunigung von Inferenzaufgaben. Jedes Rack umfasst 32 flüssigkeitsgekühlte Rechen-Trays; jedes Tray integriert acht LPU-Beschleuniger (Language Processing Units) sowie Host-Prozessoren und Kommunikationserweiterungsmodule. Dank kabelloser Designs und Hochbandbreiten-Vernetzung ermöglicht dieses System effiziente Datenübertragungen sowohl zwischen verschiedenen Trays als auch über Racks hinweg, wodurch die Kommunikationskosten und Latenzschwankungen im verteilten Inferenzprozess reduziert werden. Architektonisch bildet den Kern des LPX der neu entwickelte Groq-3-LPU-Chip. Im Gegensatz zu herkömmlichen GPUs, die sich auf Spitzenrechenleistungen konzentrieren, legt die LPU besonderen Wert auf „deterministische Ausführung" und Datenflusssteuerung: Berechnungen, Speicherzugriffe und Kommunikation werden einheitlich durch den Compiler orchestriert, um latenzbedingte Schwankungen aufgrund von Laufzeitunsicherheiten zu vermeiden. Auf dem Chip dient ein großer SRAM-Speicher als primärer Arbeitsspeicher, während explizite Datenscheduling-Maßnahmen Leistungsverluste durch Cache-Fehlschläge minimieren. Diese Konstruktion eignet sich besonders gut für den vorwiegend aus Dekodierung bestehenden Inferenzschritt – derzeit der entscheidende Engpass für Interaktionserlebnisse bei großen Sprachmodellen. Mit dem Übergang von KI-Anwendungen von Offline-Verarbeitung hin zu Echtzeitanwendung vollzieht sich eine strukturelle Veränderung der Inferenzlasten. Beispiele hierfür sind Code-Assistenten, Chatbots und Multi-Step-Agentensysteme, die gegenüber der „Time-to-First-Token"-Zeit und der Token-für-Token-Latenz äußerst empfindlich reagieren. Zudem stellen längere Kontextfenster und komplexere Inferenzketten nun ebenfalls neue Grenzen hinsichtlich Datentransfer und Speicherbandbreite dar. In diesem Umfeld kann eine einzelne Hardware-Architektur kaum noch Durchsatz und Antwortgeschwindigkeit gleichermaßen optimieren. Die Lösung von NVIDIA lautet „heterogene Inferenz". In diesem Modell übernimmt die Vera-Rubin-GPU hochdurchsatzintensive Aufgaben wie die Verarbeitung langer Kontexte und Aufmerksamkeitsberechnungen, während sich das LPX auf latenzkritische Dekodierungsphasen spezialisiert, etwa auf die Ausführung feedforward-netzwerker (FFNs) oder MoE-Expertenmodule. Beide Komponenten arbeiten über schnelle Verbindungen zusammen, um trotz gleichbleibender Gesamtdurchsatzkapazität die Interaktionsperformance erheblich zu steigern. Diese Architektur kommt zudem aktuell entstehenden Agenten-Anwendungen zugute. Bei mehrstufigen Inferenzprozessen, Tool-Nutzung und Feedbackschleifen summieren sich Verzögerungen Schritt für Schritt hinzu und beeinträchtigen unmittelbar das Nutzererlebnis. Die vom LPX gebotene Fähigkeit zu jitterarmer und vorhersagbarer Ausführung macht es zu einer wertvollen Ergänzung für solche Anwendungsfälle. Zusammenfassend stellt die Kombination aus Vera Rubin und LPX nicht nur ein Hardwar Update dar, sondern markiert einen Paradigmenwechsel im Designkonzept von KI-Inferenzeinfachstrukturen: weg von der Optimierung einzelner Leistungskennzahlen hin zum multidimensionalen Ausgleich unter Berücksichtigung realer Anwendungsszenarien. Während sich KI von der reinen Inhaltsgenerierung hin zur Aufgabenausführung entwickelt, könnte diese Architekturlösung zur Schlüsselgestalt zukünftiger KI-Infrastruktur werden.

Verwandte Links

NVIDIA stellt heterogene Inferenzarchitektur Vera Rubin + LPX vor und zielt auf die Ära der KI mit niedriger Latenz sowie von Agents ab | Aktuelle Beiträge | HyperAI