AI-Konflikt: Alternativ-Chip-Hersteller widerlegen Nvidias Dominanz und Preismarge
Nvidia’s „Künstliche Intelligenz-Fabrik“-Narrativ steht einer Realitätsprüfung gegenüber, während die Inferenzkriege 70% Margen aufdecken Am Dienstag, dem 25. Juni 2025, wurde bei der Konferenz VB Transform 2025 die Dominanz von Nvidia direkt angegriffen, als alternative Chip-Hersteller das Inferenzpanel besetzten und eine grundlegende Widersprüchlichkeit aufzeigten: Wie kann künstliche Intelligenz-Inferenz eine verkommoditierte „Fabrik“ sein und gleichzeitig 70% Bruttomarge erzielen? Jonathan Ross, CEO von Groq, hielt sich nicht zurück, als es um Nvidias sorgfältig gestaltete Botschaft ging. „Künstliche Intelligenz-Fabrik ist einfach eine Marketingstrategie, um KI weniger bedrohlich erscheinen zu lassen“, sagte Ross während des Panels. Sean Lie, CTO von Cerebras, einem Konkurrenten, war genauso direkt: „Ich glaube nicht, dass Nvidia es stört, wenn alle Serviceanbieter um jeden letzten Penny kämpfen, während sie selbst mit 70 Punkten bequem sitzen.“ Hunderte von Milliarden in Infrastrukturinvestitionen und die zukünftige Architektur von Unternehmens-KI sind auf dem Spiel. Für CISOs und KI-Leiter, die derzeit wöchentlich Verhandlungen mit OpenAI und anderen Anbietern über mehr Kapazität führen, legte das Panel unbequeme Wahrheiten über die Gründe für die Engpässe ihrer KI-Projekte offen. „Jeder, der diese generativen KI-Modelle tatsächlich großflächig nutzt, weiß, dass man zu OpenAI oder ähnlichen Anbietern gehen kann, aber sie werden nicht in der Lage sein, genügend Tokens bereitzustellen“, erklärte Dylan Patel, Gründer von SemiAnalysis. Es gibt wöchentliche Meetings zwischen den größten KI-Nutzern und ihren Modellanbietern, um sie zu überzeugen, mehr Kapazität zuzuweisen. Diese wiederum führen wöchentliche Meetings mit ihren Hardwarelieferanten. Die Panelisten zeigten auch auf, dass der Tokenmangel ein fundamentales Problem in der Fabrikanalogie aufdeckt. In traditioneller Fertigung wird auf die Nachfrage geantwortet, indem Kapazität hinzugefügt wird. Doch wenn Unternehmen zehnmal mehr Inferenzkapazität benötigen, stellen sie fest, dass die Supply Chain nicht mitflexen kann. GPUs haben eine Vorlaufzeit von zwei Jahren. Rechenzentren benötigen Genehmigungen und Stromverträge. Die Infrastruktur wurde nicht für exponentielles Skalieren gebaut, was dazu führt, dass Anbieter den Zugang durch API-Limits rationieren müssen. Laut Patel stieg Anthropic in sechs Monaten von 2 Milliarden auf 3 Milliarden Dollar im jährlichen Wiederkehrenden Umsatz (ARR). Cursor sprang von praktisch null auf 500 Millionen Dollar ARR. OpenAI überschritt die Marke von 10 Milliarden Dollar. Trotzdem können Unternehmen die Tokens nicht erhalten, die sie benötigen. Warum das Fabrikdenken die KI-Wirtschaft zerstört Jensens Huangs Konzept der „KI-Fabrik“ impliziert Standardisierung, Verkommoditisierung und Effizienzgewinne, die die Kosten senken. Das Panel enthüllte jedoch drei grundlegende Aspekte, in denen dieses Metapher zusammenbricht: Erstens ist Inferenz nicht einheitlich. „Selbst heute, bei der Inferenz von, sagen wir, DeepSeek, gibt es eine Reihe von Anbietern entlang der Kurve, wie schnell sie was zu welchem Preis liefern“, bemerkte Patel. DeepSeek serve sein eigenes Modell zum niedrigsten Preis, aber es liefert nur 20 Tokens pro Sekunde. „Niemand will ein Modell mit 20 Tokens pro Sekunde nutzen. Ich spreche schneller als 20 Tokens pro Sekunde.“ Zweitens variiert die Qualität enorm. Ross zog einen historischen Vergleich zu Standard Oil: „Als Standard Oil startete, hatte Öl unterschiedliche Qualitäten. Man konnte Öl von einem Lieferanten kaufen, und es könnte dein Haus in Brand setzen.“ Der heutige KI-Inferenzmarkt stellt ähnliche Qualitätsunterschiede dar, da Anbieter verschiedene Techniken anwenden, um die Kosten zu senken, was die Ausgabequalität unabsichtlich beeinträchtigt. Drittens und am kritischsten sind die Wirtschaftsgrundlagen umgekehrt. „Eines der ungewöhnlichen Dinge an KI ist, dass man mehr ausgeben muss, um bessere Ergebnisse zu erzielen“, erklärte Ross. „Man kann nicht einfach eine Softwareanwendung haben und sagen, ich werde doppelt so viel ausgeben, um meine Software zu hosten, und Anwendungen werden besser werden.“ Als Ross erwähnte, dass Mark Zuckerberg Groq lobte, weil sie „der Einzige waren, der es mit voller Qualität lanciert hat“, enthüllte er unabsichtlich die Qualitätskrise in der Branche. Dies war keine Anerkennung, sondern ein Indiz, dass andere Anbieter Ecken abschneiden. Ross erläuterte die Mechanismen: „Viele Menschen machen viele Tricks, um die Qualität zu reduzieren, nicht absichtlich, aber um ihre Kosten zu senken und ihre Geschwindigkeit zu verbessern.“ Quantifizierung reduziert die Präzision. Schneidung entfernt Parameter. Jede Optimierung verringert die Modellaufgabe auf Weise, die Unternehmen erst im Produktionsszenario bemerken. Der historische Vergleich zu Standard Oil, den Ross zog, beleuchtet die Brisanz. Heute steht der Inferenzmarkt vor dem gleichen Qualitätsvarianzproblem. Anbieter wetten darauf, dass Unternehmen den Unterschied zwischen 95% und 100% Genauigkeit nicht bemerken, aber gegen Firmen wie Meta wetten, die die Degradation messen können. Dies schafft unmittelbare Imperative für Unternehmenskäufer: Stellen Sie Qualitätsstandards fest, bevor Sie Anbieter auswählen. Überprüfen Sie bestehende Inferenzpartner auf unerwähnte Optimierungen. Akzeptieren Sie, dass Premiumpreise für volle Modellgenauigkeit nun eine permanente Markteigenschaft sind. Die Ära der Annahme funktionaler Äquivalenz unter den Inferenzanbietern endete, als Zuckerberg den Unterschied hervorhob. Das Paradoxon der 1-Million-Token-Preis Der entscheidendste Moment kam, als das Panel Preise diskutierte. Lie hob ein unbequemes Thema für die Branche hervor: „Wenn diese millionen Tokens so wertvoll sind, wie wir glauben, geht es doch nicht nur um Wörterbewegung. Man würde nicht 1 Dollar für die Bewegung von Wörtern berechnen. Ich zahle meinem Anwalt 800 Dollar die Stunde, um ein zweiseitiges Memo zu schreiben.“ Diese Beobachtung trifft den Kern des Problems der Preisfindung in der KI. Die Branche strebt danach, die Tokenkosten unter 1,50 Dollar pro Million zu senken, während sie behauptet, dass diese Tokens jedes Geschäftsideal revolutionieren. Das Panel stimmte implizit überein, dass die Mathematik nicht stimmt. „Fast jeder, dieser schnell wachsenden Startups, der Betrag, den sie für Tokens als Service ausgeben, entspricht fast ihrem Umsatz eins zu eins“, enthüllte Ross. Dieses 1:1-Ausgabenverhältnis für KI-Tokens im Vergleich zum Umsatz repräsentiert ein nachhaltiges Geschäftsmodell, das die „Fabrik“-Narration bequemerweise ignoriert. Leistung verändert alles Cerebras und Groq konkurrieren nicht nur auf dem Gebiet der Preise, sondern auch der Leistung. Sie ändern grundlegend, was in Bezug auf Inferenzgeschwindigkeit möglich ist. „Mit der Wafer-Scale-Technologie, die wir entwickelt haben, ermöglichen wir 10-mal, manchmal 50-mal, schnellere Leistungen als selbst die schnellsten GPUs heute“, sagte Lie. Dies ist kein inkrementeller Fortschritt. Es ermöglicht ganz neue Anwendungsfälle. „Wir haben Kunden, deren agentrale Workflows 40 Minuten dauern und die diese Dinge in Echtzeit ausführen möchten“, erklärte Lie. „Diese Dinge sind nicht einmal möglich, selbst wenn man bereit ist, den Top-Preis zu zahlen.“ Die Geschwindigkeitsdifferenz schafft einen gespaltenen Markt, der der Fabrikstandardisierung trotzt. Unternehmen, die Echtzeit-Inferenz für kundenseitige Anwendungen benötigen, können nicht die gleiche Infrastruktur nutzen wie diejenigen, die über Nacht Batchprozesse durchführen. Die echte Flaschenhals: Strom und Rechenzentren Während sich alle auf die Chip-Versorgung konzentrieren, enthüllte das Panel die tatsächliche Hürde für die KI-Bereitstellung. „Rechenzentrumskapazität ist ein großes Problem. Man kann in den USA kaum Rechenzentrumskapazität finden“, sagte Patel. „Strom ist ein großes Problem.“ Die Infrastrukthurchallenge geht über die Chip-Fertigung hinaus bis hin zu fundamentalen Ressourcenbeschränkungen. „TSMC in Taiwan kann über 200 Millionen Dollar wert an Chips herstellen, richtig? Das Wichtigste ist … die Geschwindigkeit, mit der sie aufskalen, ist unglaublich“, erläuterte Patel. Aber Chipproduktion bedeutet nichts ohne Infrastruktur. „Der Grund, warum wir große Deals im Nahen Osten sehen und teilweise, warum beide Firmen starke Präsenzen im Nahen Osten haben, ist Strom“, enthüllte Patel. Der globale Wettlauf um Computingkapazität zwingt Unternehmen, „auf der ganzen Welt nachzujagen, wo immer Stromkapazität existiert, wo immer Rechenzentrumskapazität vorhanden ist, wo immer Elektriker sind, die diese Elektrikal-Systeme bauen können.“ Google’s „Erfolgs-Katastrophe“ wird zur Realität für alle Ross berichtete eine aufschlussreiche Anekdote aus Googles Geschichte: „Es gab einen Begriff, der 2015 bei Google sehr populär wurde, nämlich Erfolgs-Katastrophe. Einige Teams hatten KI-Anwendungen gebaut, die zum ersten Mal besser funktionierten als Menschen, und die Nachfrage nach Computing war so hoch, dass sie das globale Rechenzentrumfußwerk innerhalb kurzester Zeit verdoppeln oder verdreifachen mussten.“ Dieser Muster wiederholt sich nun bei jeder Unternehmens-KI-Bereitstellung. Anwendungen scheitern entweder an der Akzeptanz oder erleben ein exponentielles Wachstum, das sofort an Infrastrukturengpässe stößt. Es gibt keinen Mittelweg, keine glatte Skalierungskurve, die das Fabrikökonomie voraussetzt. Was dies für die Unternehmens-KI-Strategie bedeutet Für CIOs, CISOs und KI-Leiter fordern die Enthüllungen des Panels eine strategische Neuausrichtung: Kapazitätsplanung erfordert neue Modelle. Traditionelle IT-Vorhersagen gehen von linearem Wachstum aus. KI-Arbeitslasten brechen diese Annahme. Wenn erfolgreiche Anwendungen den Token-Verbrauch monatlich um 30% erhöhen, werden jährliche Kapazitätspläne innerhalb von Quartalen obsolet. Unternehmen müssen von statischen Beschaffungszyklen zu dynamischer Kapazitätsmanagement übergehen. Legen Sie Verträge mit Burst-Bedingungen fest. Überwachen Sie die Nutzung wöchentlich, nicht quartalsweise. Nehmen Sie an, dass KI-Skalierungsmuster denen viraler Adoptionskurven ähneln, nicht denen traditioneller Unternehmenssoftware-Rollouts. Geschwindigkeitsprämien sind permanent. Die Idee, dass Inferenz zu einheitlichen Preisen verkommoditiert werden wird, ignoriert die riesigen Leistungsunterschiede zwischen den Anbietern. Unternehmen müssen sich an den Orten, wo Geschwindigkeit wichtig ist, auf höhere Budgets einstellen. Architektur übersteht Optimierung. Groq und Cerebras gewinnen nicht dadurch, dass sie GPUs besser machen. Sie gewinnen, indem sie die grundlegende Architektur des KI-Computing neu denken. Unternehmen, die alles auf GPU-basierte Infrastrukturen setzen, könnten sich im langsamen Spur wiederfinden. Strominfrastruktur ist strategisch. Der Engpass ist nicht die Chips oder die Software, sondern Kilowatt und Kühlung. Kluge Unternehmen sichern sich jetzt schon Stromkapazität und Rechenzentrumraum für 2026 und darüber hinaus. Die Realität, die Unternehmen nicht ignorieren können Das Panel enthüllte eine fundamentale Wahrheit: Das Metapher der KI-Fabrik ist nicht nur falsch, sondern auch gefährlich. Unternehmen, die Strategien auf kommoditisierter Inferenzpreisgestaltung und standardisierter Lieferung aufbauen, planen für einen Markt, der nicht existiert. Der echte Markt operiert auf drei harten Realitäten: Kapazitätsschwelle führen zu Power-Inversionen, bei denen Lieferanten die Bedingungen diktieren und Unternehmen um Zuteilungen flehen. Qualitätsunterschiede, der Unterschied zwischen 95% und 100% Genauigkeit, bestimmen, ob Ihre KI-Anwendungen erfolgreich sind oder katastrophal scheitern. Infrastrukturbeschränkungen, nicht Technologie, setzen die bindenden Grenzen für die KI-Transformation. Für CISOs und KI-Leiter erfordert der Weg nach vorn, dass sie das Fabrikdenken vollständig aufgeben. Sichern Sie jetzt Stromkapazität. Überprüfen Sie Inferenzanbieter auf verborgene Qualitätsminderungen. Bauen Sie Beziehungen zu Anbietern auf, die architektonische Vorteile bieten, nicht nur marginale Kostenersparnisse. Akzeptieren Sie am kritischsten, dass die Zahlung von 70% Margen für verlässliche, hochwertige Inferenz möglicherweise Ihre klügste Investition ist. Die alternativen Chip-Hersteller bei Transform stellten Nvidias Narration nicht nur herausfordernd in Frage. Sie enthüllten, dass Unternehmen eine Wahl haben: Entweder zahlen sie für Qualität und Leistung, oder sie nehmen an wöchentlichen Verhandlungsgesprächen teil. Das Konsens des Panels war klar: Erfolg erfordert die Anpassung spezifischer Workloads an geeignete Infrastrukturen anstelle der Verfolgung einheitsgrößenlösungen.