Cerebras sichert mit OpenAI millionenwertigen Inference-Vertrag
Um generative KI (GenAI) über eine kurzfristige Blase hinaus zur Mainstream-Technologie zu machen, müssen sowohl die Kosten für Inferenz als auch die Geschwindigkeit der Token-Generierung drastisch sinken. Besonders wichtig ist dies, wenn sich die KI von menschlichen Interaktionen zu autonomen, agierenden Systemen entwickelt, die untereinander kommunizieren. In diesem Kontext kaufte Nvidia im Dezember 2025 Groq im Rahmen eines „Aquihire“-Deals für 20 Milliarden Dollar – nicht nur die Technologie des Learning Processing Units (LPU), sondern auch das gesamte Schlüsseltechnikerteam, darunter Co-Gründer Jonathan Ross und COO Sunny Madra. Diese Strategie zeigt, dass Nvidia die Zukunft der effizienten Inferenz ernst nimmt. Obwohl Nvidia mit seinen Blackwell- und zukünftigen Rubin-Systemen erhebliche Fortschritte bei der Kostensenkung pro Token erzielt hat, übertrifft die Leistung von Spezialhardware wie den CS-3-Systemen von Cerebras und den GroqRack-Systemen in puncto Latenz und deterministischer Planung die allgemein verwendeten GPUs. Cerebras, gegründet 2015 wie OpenAI, hat jahrelang mit OpenAI zusammengearbeitet – zunächst mit offenen GPT-Modellen, später mit dem GPT-OSS-120B, das auf CS-3-Systemen mit einer Antwortgeschwindigkeit von 2.700 Tokens pro Sekunde und einer ersten-Token-Latenz von 280 Millisekunden getestet wurde. Dies ist deutlich schneller als bei Groq, obwohl Cerebras höhere Preise verlangt (25 Cent pro Megatoken Eingabe, 69 Cent Ausgabe vs. 15 Cent und 75 Cent bei Groq). Trotz der höheren Kosten schloss OpenAI einen 10-Milliarden-Dollar-Vertrag mit Cerebras für Cloud-Kapazitäten – nicht, weil OpenAI eigene Rechenzentren betreiben will, sondern um skalierbare, leistungsstarke Inferenzressourcen zu nutzen. Die Rechnung basiert auf 750 Megawatt Leistung, was etwa 32.768 CS-3-Systeme entspricht – mit einer Gesamtleistung von fast 4,1 Exaflops FP16. Die Investition wird nicht direkt getätigt, sondern über eine Miete, die Cerebras ermöglicht, die Infrastruktur schrittweise aufzubauen und später auch an Dritte zu vermieten. Der Erfolg dieses Deals hängt von der Nutzung ab: Bei einer durchschnittlichen Kosten von 47 Cent pro Megatoken könnten 21,3 Quadrillionen Tokens verarbeitet werden – ein Beweis für die Skalierbarkeit und Effizienz der Technologie. Cerebras-Chef Andrew Feldman betont, dass dies die größte Partnerschaft der Firma sei und den Durchbruch für die Mainstream-Integration von Hochleistungsinferenz bedeute. Die Zukunft liegt in der WSE-4-Architektur, die 3D-gestapelte SRAM und optische Verbindungen zur Erweiterung des Speichers und der Clusterbandbreite nutzen könnte. Damit könnte die Effizienz weiter steigen. Obwohl Nvidia Groq übernommen hat, wird OpenAI weiterhin an seinem eigenen „Titan“-XPU-Projekt mit Broadcom arbeiten – als Absicherung gegen Marktveränderungen. Die Cerebras-Partnerschaft ist also kein Zeichen für eine Abschwächung, sondern eine strategische Diversifizierung. Die KI-Inferenz ist auf dem Weg in die Massen – und die Schlüsseltechnologien liegen nun in den Händen weniger, aber sehr mächtiger Akteure.
