HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Blackwell Ultra senkt Kosten um 35x und steigert Leistung um 50x für agentebasierte KI

Die neue NVIDIA Blackwell Ultra-Plattform, insbesondere das GB300 NVL72-System mit dem Blackwell Ultra-GPU, zeigt nach neuesten Daten bis zu 50-fach höhere Leistung pro Kilowatt und bis zu 35-fach geringere Kosten pro Token im Vergleich zur Hopper-Plattform – besonders für agente-basierte KI-Anwendungen wie Code-Assistenten. Diese Workloads haben sich in den letzten zwölf Monaten von 11 % auf etwa 50 % der Software-Programmier-Queries erhöht, wie der OpenRouter-State-of-Inference-Bericht zeigt. Für solche Anwendungen sind niedrige Latenz und lange Kontexte entscheidend, um mehrstufige, reaktive Prozesse in Echtzeit zu ermöglichen. Die Kombination aus Hardware- und Software-Optimierungen – darunter TensorRT-LLM, Dynamo, Mooncake und SGLang – hat die Durchsatzleistung bei Mixture-of-Experts (MoE)-Inference erheblich gesteigert. So erzielte TensorRT-LLM allein innerhalb von vier Monaten eine bis zu fünffache Verbesserung bei niedriger Latenz. Das GB300 NVL72 erreicht nun eine bis zu 50-fach höhere Durchsatzleistung pro Watt, was zu einem signifikanten Kostenvorteil führt, besonders bei niedriger Latenz – dort um bis zu 35x günstiger pro Million Tokens. Zudem übertrifft das GB300 NVL72 das GB200 NVL72 bei langen Kontexten (128.000 Eingabewörter, 8.000 Ausgabewörter) mit bis zu 1,5-fach geringeren Kosten pro Token, dank 1,5-fach höherer NVFP4-Rechenleistung und doppelt so schnellerer Aufmerksamkeitsverarbeitung. Diese Fortschritte machen die Plattform ideal für KI-Agenten, die ganze Codebasen analysieren müssen. Große Cloud-Anbieter wie Microsoft, CoreWeave und OCI setzen die GB300 NVL72 bereits in der Produktion ein, um agente-basierte und interaktive KI-Systeme skalierbarer und kosteneffizienter zu machen. Chen Goldberg von CoreWeave betont, dass die Grace Blackwell NVL72-Systeme die Herausforderungen von Langkontext- und Token-Effizienz direkt adressieren und die KI-Cloud-Infrastruktur mit Produkten wie CKS und SUNK in vorhersehbare Leistung und Kosteneffizienz übersetzen. Im Weiteren wird die NVIDIA Vera Rubin NVL72-Plattform, die sechs neue Chips zu einem einzigen KI-Supercomputer vereint, noch größere Fortschritte bringen: Für MoE-Inference bietet sie bis zu 10-fach mehr Durchsatz pro Kilowatt und damit ein Zehntel der Kosten pro Million Tokens im Vergleich zu Blackwell. Zudem kann sie große MoE-Modelle mit nur einem Viertel der GPUs im Vergleich zu Blackwell trainieren. Diese Entwicklungen unterstreichen NVIDIAs strategische Positionierung in der nächsten Generation der KI-Infrastruktur, wo Hardware-Software-Codesign und Skalierbarkeit entscheidend sind. Industrieexperten sehen in der Blackwell Ultra-Plattform einen Meilenstein für die wirtschaftliche Skalierung agenter KI. Die Kosteneinsparungen und Leistungssteigerungen ermöglichen neue Anwendungen, die bislang aufgrund von Rechenkosten nicht praktikabel waren. NVIDIA positioniert sich damit nicht nur als Hardware-Lieferant, sondern als zentraler Treiber der KI-Infrastruktur-Revolution. Die Zusammenarbeit mit Cloud-Playern und KI-Start-ups zeigt, dass die Plattform bereits in der realen Welt eingesetzt wird – mit messbaren Vorteilen in Effizienz, Skalierbarkeit und Benutzererfahrung.

Verwandte Links

NVIDIA Blackwell Ultra senkt Kosten um 35x und steigert Leistung um 50x für agentebasierte KI | Aktuelle Beiträge | HyperAI