NVIDIA Dynamo und Grove vereinfachen KI-Inferenz in Rechenzentren
AI-Infrastruktur entwickelt sich rapide hin zu komplexen, verteilten Systemen, die Millionen von Nutzern gleichzeitig bedienen müssen. Um diesen Anforderungen gerecht zu werden, verschiebt sich die Inferenz von einfachen, einzelnen Modellen hin zu skalierbaren, mehrkomponentigen Architekturen, die mehrere Agenten und Modelle kooperativ einsetzen. Dabei spielt Kubernetes als Standard für Container-Orchestrierung eine zentrale Rolle, um mehrknotenbasierte Inferenzsysteme zu verwalten. NVIDIA Dynamo kombiniert sich mit Kubernetes, um sowohl einzelne als auch verteilte Inferenzworkloads effizient zu steuern – besonders wichtig bei großen Modellen wie DeepSeek-R1. Ein Schlüssel zur Leistungssteigerung ist die disaggregierte Inferenz: Sie trennt die beiden Phasen der Modellverarbeitung – das Vorverarbeiten der Eingabe (Prefill) und die Ausgabeerzeugung (Decode) – und verteilt sie auf spezialisierte GPUs. Dadurch wird die Hardware optimal genutzt, da jede Phase mit den dafür geeignetsten Techniken betrieben wird. NVIDIA Dynamo ermöglicht diese Architektur bereits in Produktionsumgebungen. So konnte Baseten die Antwortgeschwindigkeit bei der Codegenerierung verdoppeln und die Durchsatzleistung um 60 Prozent steigern – alles ohne zusätzliche Hardware. Benchmarkstudien von SemiAnalysis zeigen zudem, dass Dynamo auf NVIDIA GB200 NVL72-Systemen die niedrigsten Kosten pro Million Tokens für Mixture-of-Experts-Modelle erreicht. Für große Cloud-Infrastrukturen ist die Skalierung über Dutzende oder Hunderte von Knoten entscheidend. Hier liefert Kubernetes die notwendige Orchestrierung. Dank der Integration von NVIDIA Dynamo in die Managed Kubernetes-Angebote aller großen Cloud-Anbieter können Unternehmen jetzt hochskalierbare Inferenzsysteme auf NVIDIA Blackwell-Architekturen wie GB200 und GB300 NVL72 betreiben – mit Performance, Flexibilität und Zuverlässigkeit für Unternehmensanwendungen. Unternehmen wie Nebius bauen ihre Clouds bereits auf NVIDIA Accelerated Computing auf und nutzen Dynamo als strategischen Partner. Ein zentraler Fortschritt ist NVIDIA Grove, eine neue Kubernetes-API innerhalb von Dynamo, die komplexe Inferenzsysteme vereinfacht. Grove ermöglicht es Entwicklern, ganze Inferenzsysteme – inklusive Prefill, Decode, Routing und mehr – als einheitliche, deklarative Spezifikation zu definieren. Mit nur einem Custom Resource (CR) können sie festlegen: „Ich brauche drei Knoten für Prefill und sechs für Decode, alle auf einem schnellen NVLink-Netzwerk“. Grove übernimmt dann automatisch die Koordination: Hierarchisches Gang-Scheduling, topologiebewusste Platzierung, mehrstufiges Autoscaling und korrekte Startreihenfolge. Grove nutzt drei Kernkomponenten: PodClique für Rollen (z. B. Leader oder Worker), PodCliqueScalingGroup für zusammengehörige Komponenten und PodCliqueSet für das gesamte System. Diese Struktur ermöglicht flexible Skalierung, schnelle Reaktion auf Lastspitzen und stabile Wiederherstellung nach Fehlern. Der Grove-Operator erzeugt automatisch alle benötigten Kubernetes-Ressourcen, während ein intelligenter Scheduler wie der KAI Scheduler sicherstellt, dass Komponenten nahe beieinander liegen und die Netzwerklatenz minimiert wird. Mit Grove wird die Entwicklung verteilter AI-Systeme deutlich einfacher. Es ist vollständig Open Source und steht auf GitHub bereit. Entwickler können es mit Dynamo nutzen oder als eigenständiges Werkzeug in ihren Kubernetes-Umgebungen einsetzen. Die Plattform unterstützt sowohl klassische als auch komplexe agenzienbasierte Pipelines und ermöglicht eine konsistente, optimierte Bereitstellung über verschiedene Cluster hinweg. Weitere Informationen und Anleitungen finden sich im Grove Deployment Guide. Interessierte sind eingeladen, am NVIDIA-Booth #753 auf der KubeCon 2025 in Atlanta vorbeizuschauen.
