Google zeigt Leistung und Skalierung seiner AI-Inferenz-Infrastruktur
Google hat auf dem AI Infra Summit in Santa Clara erneut seine führende Rolle im Bereich der Skalierung und Effizienz von KI-Infrastruktur unterstrichen, indem es Einblicke in seine fortschrittlichen Systeme für KI-Inferenz gab. Die steigende Nachfrage nach KI-Verarbeitung – besonders durch die Gemini- und Gemma-Modelle – führt zu einer exponentiellen Zunahme der Inferenzraten: Von 9,7 Billionen Tokens im April 2024 stieg die Rate bis April 2025 auf über 480 Billionen Tokens pro Sekunde, im Juni 2025 erreichte sie 980 Billionen pro Monat und wurde im August 2025 auf rund 1.460 Billionen pro Monat geschätzt. Diese Dynamik erfordert eine massiv erweiterte Hardware- und Infrastrukturlösung, die Google mit seinem neuesten TPU-Generations-System „Ironwood“ (TPU v7p) bereitstellt. Ironwood bietet fünfmal die Spitzenleistung und sechsmal mehr HBM-Speicher als das vorherige Trillium-System. In Kombination mit Google’s einzigartigem optischen Schalt-Netzwerk (OCS) können bis zu 9.216 Ironwood-TPUs in einem Cluster zusammenarbeiten, mit insgesamt 1,77 PB HBM-Speicher – eine Leistung, die verglichen mit Nvidia-Blackwell-Systemen, die auf 20,7 TB HBM beschränkt sind, deutlich überlegen ist. Die OCS-Technologie ermöglicht dynamische Rekonfiguration und Fehlerheilung ohne Neustart laufender Aufgaben, was die Verfügbarkeit und Effizienz entscheidend steigert. Parallel dazu hat Google seine Flüssigkeitskühlung auf ein neues Level gehoben: Seit 2014 entwickelt, verfügt Google mittlerweile über eine fünfte Generation von Kühlverteiler-Einheiten (CDU), mit einer Gesamtleistung von etwa einem Gigawatt – 70-mal mehr als jedes andere Rechenzentrum zu diesem Zeitpunkt. Diese Technologie wird nun auch für GPU-Systeme angepasst und soll im Laufe des Jahres im Open Compute Project veröffentlicht werden. Auf Softwareseite präsentiert Google eine umfassende, hochgradig optimierte Inferenz-Stack-Infrastruktur auf Basis von GKE (Google Kubernetes Engine), vLLM als zentralem Inferenz-Engine, Anywhere Cache für Flash-basierte, regionale und interregionale Daten-Caching-Latenzreduzierung um bis zu 96 %, sowie der Managed Lustre-Dateisystem für hohe Datenflussraten. Der neue GKE Inference Gateway nutzt künstliche Intelligenz zur intelligenten Lastverteilung, trennt Prefill- und Decode-Phasen, um spezialisierte Hardware effizient einzusetzen – ähnlich wie Nvidia mit dem Rubin CPX. Zusätzlich wurde der GKE Inference Quickstart-Tool vorgestellt, der Kunden hilft, optimale Konfigurationen für KI-Workloads zu finden, um Latenz zu senken, Durchsatz zu steigern und Kosten um bis zu 30 % zu reduzieren. Ein weiterer Meilenstein ist die Spekulative Dekodierung, die Google bei Gemini eingesetzt hat und die Energieverbrauch um das 33-Fache senken konnte – ein entscheidender Faktor bei der Rentabilität von KI-Infrastruktur. Obwohl Google weiterhin auf eigene TPUs setzt, betont es auch die Integration von Nvidia-GPUs, insbesondere in Form von Blackwell-basierten Instanzen (G4, A4, A4X), und hat Nvidia’s Dynamo-Inferenz-Plattform als Option im Google Cloud angeboten. Ob der Google-Inferenz-Stack auch auf AMD- oder anderen GPU-Architekturen läuft, bleibt unklar, doch die Historie spricht für eine zukünftige Portierung. Bewertung: Branchenexperten sehen in Googles Ironwood- und OCS-Infrastruktur einen Paradigmenwechsel in der KI-Skalierung – nicht nur wegen der reinen Leistung, sondern vor allem durch die Integration von Hardware, Netzwerk und Software auf höchstem Niveau. Die Kombination aus spezialisierter Hardware, intelligenter Lastverteilung und Energieeffizienz macht Google zu einem unbestrittenen Leader im Hyperscaler-KI-Ökosystem. Die Fähigkeit, die Kosten pro Token signifikant zu senken, könnte die Wettbewerbsbedingungen in der Cloud- und KI-Industrie nachhaltig verändern. Google Cloud positioniert sich damit nicht nur als Anbieter, sondern als Innovator, der die Grenzen der KI-Infrastruktur neu definiert.