Neue Waferscale-Chips revolutionieren Energieeffizienz und Leistung bei künstlicher Intelligenz.
Wafer-Scale-Beschleuniger könnten die künstliche Intelligenz neu definieren Ein neues Typ von Computerchip, der die Zukunft der künstlichen Intelligenz (KI) revolutionieren und zugleich umweltfreundlicher sein könnte, wird in einem Technologie-Review-Artikel von Ingenieuren der University of California, Riverside (UCR) im Journal Device untersucht. Diese riesigen Chips, hergestellt von Cerebras, basieren auf siliziumwafern, die etwa so groß wie ein Tellerrand sind, im Gegensatz zu traditionellen Grafikkarten (GPU), die kaum größer als eine Briefmarke sind. Das interdisziplinäre Team von UCR, angeführt von Professor Mihri Özkan, kommt zu dem Schluss, dass Wafer-Scale-Verarbeitungseinheiten (WSV) erheblich mehr Rechenleistung mit wesentlich höherer Energieeffizienz bieten können. Dies ist besonders wichtig, da KI-Modelle immer komplexer und anspruchsvoller werden. "Die Wafer-Scale-Technologie markiert einen enormen Sprung nach vorne," sagte Özkan. "Sie ermöglicht es, KI-Modelle mit Billionen von Parametern schneller und effizienter auszuführen als herkömmliche Systeme." Neben Özkan waren auch UCR-Graduiertenschüler Lily Pompa, Md Shaihan Bin Iqbal, Yiu Chan, Daniel Morales, Zixun Chen, Handing Wang, Lusha Gao und Sandra Hernandez Gonzalez an der Studie beteiligt. GPUs wurden zu unverzichtbaren Werkzeugen für die Entwicklung von KI, da sie viele Berechnungen gleichzeitig durchführen können – ideal für die parallele Verarbeitung von Bildern, Sprache und Datenströmen. Die Möglichkeit, Tausende paralleler Operationen gleichzeitig auszuführen, ermöglicht es beispielsweise autonomen Fahrzeugen, ihre Umgebung zu interpretieren, um Kollisionen zu vermeiden, Bildern aus Texten zu generieren und ChatGPT, um Dutzende Rezepte aus einer bestimmten Liste von Zutaten zu vorschlagen. Doch mit zunehmender Komplexität der KI-Modelle stoßen selbst hochwertige GPUs an Leistungs- und Energiegrenzen. "KI-Rechnen geht nicht nur noch um Geschwindigkeit," erklärte Özkan. "Es geht darum, Systeme zu gestalten, die riesige Datenmengen bewegen können, ohne zu überhitzen oder zu viel Energie zu verbrauchen." Die Analyse von UCR vergleicht heutige Standard-GPU-Chips mit WSV-Systemen wie dem Cerebras Wafer-Scale Engine 3 (WSE-3), das 4 Billionen Transistoren und 900.000 KI-spezifische Kerne auf einem einzigen Wafer enthält. Ein weiteres Beispiel ist Teslas Dojo D1, das 1,25 Billionen Transistoren und fast 9.000 Kerne pro Modul aufweist. Diese Systeme sind darauf ausgelegt, die Leistungsengpässe zu beseitigen, die auftreten, wenn Daten zwischen mehreren kleineren Chips hin- und hergeschickt werden müssen. "Indem alles auf einem einzigen Wafer bleibt, vermeidet man die Verzögerungen und Leistungsverluste, die durch die Kommunikation zwischen den Chips entstehen," erklärte Özkan. Das Papier hebt auch Technologien hervor, wie die Chip-on-Wafer-on-Substrat-Verpackung, die dazu beitragen könnte, Wafer-Scale-Designs kompakter und leichter skalierbar zu machen, mit einem potenziellen 40-fachen Anstieg der Rechendichte. Obwohl diese Systeme erhebliche Vorteile bieten, sind sie nicht für jede Anwendung geeignet. Die Herstellung von Wafer-Scale-Verarbeitungseinheiten ist kostspielig und weniger flexibel für kleinere Aufgaben. Konventionelle GPUs bleiben aufgrund ihrer Modularität und Kosteneffizienz in vielen Bereichen unverzichtbar. "Single-Chip-GPUs werden nicht verschwinden," sagte Özkan. "Aber Wafer-Scale-Beschleuniger sind unerlässlich für das Training der fortschrittlichsten KI-Modelle." Nachhaltigkeit stellt eine wachsende Bedrohung in der KI dar. GPU-gestützte Rechenzentren verbrauchen enorme Mengen an Elektrizität und Wasser, um abgekühlt zu bleiben. Wafer-Scale-Prozessoren reduzieren den internen Datenverkehr und verbrauchen daher bei jedem Task erheblich weniger Energie. Zum Beispiel kann der Cerebras WSE-3 bis zu 125 Quadrillionen Operationen pro Sekunde durchführen, während er nur einen Bruchteil der Energie benötigt, die vergleichbare GPU-Systeme verbrauchen. Seine Architektur hält die Daten lokal, was sowohl den Energieverbrauch als auch die thermische Auslastung senkt. NVIDIA’s H100 GPU bildet den Kern vieler moderner Rechenzentren und bietet Flexibilität und hohe Durchsatzleistung, aber zu einem höheren Energiekosten. Mit einer Effizienzrate von etwa 7,9 Billionen Operationen pro Sekunde pro Watt erfordert es auch umfangreiche Kühlinfrastrukturen, oft mit großen Wassermengen. "Man kann sich GPUs als belebte Autobahnen vorstellen – effektiv, aber Verkehrsstaus verschwenden Energie," sagte Özkan. "Wafer-Scale-Engines sind eher wie Monorads: direkt, effizient und weniger schadstoffbelastend." Cerebras berichtet, dass Inferenzworkloads auf seinem WSE-3-System nur ein Sechstel des Stromverbrauchs von vergleichbaren GPU-basierten Cloud-Setups benötigen. Die Technologie wird bereits in Klimasimulationen, nachhaltiger Ingenieurkunst und Kohlenstoffbindung gemodelt. Trotz dieser Vorteile bleibt Wärme ein Problem. Die thermische Entwurfsleistung erreicht bei Wafer-Scale-Chips 10.000 Watt, wodurch fortschrittliche Kühlmethoden erforderlich werden. Cerebras verwendet dabei eine glykolbasierte Schleife, die in das Chipverpackung integriert ist, während Tesla ein Kühlmedium einsetzt, das den Chip gleichmäßig benetzt. Die Autoren betonen zudem, dass bis zu 86 % des gesamten Kohlenstofffußabdrucks eines Systems aus der Produktion und den Lieferketten stammen, nicht nur aus dem Energieverbrauch. Sie plädieren für recycelbare Materialien und niedrigemissionslegierte Legierungen sowie für umfassende Lebenszyklusdesign-Praktiken. "Effizienz beginnt in der Fabrik," sagte Özkan. "Um den tatsächlichen Energieverbrauch der Computing-Industrie zu senken, müssen wir den gesamten Prozess – von Wafer bis Abfall – neu denken. Diese Review ist das Ergebnis einer tiefen interdisziplinären Zusammenarbeit. Wir hoffen, dass es als Leitfaden für Forscher, Ingenieure und Entscheidungsträger dient, die die Zukunft der KI-Hardware gestalten." Branchenexperten betrachten die Wafer-Scale-Technologie als wichtigen Schritt zur Weiterentwicklung der KI, insbesondere in Anwendungen, die hohe Rechenleistung und Energieeffizienz erfordern. Unternehmen wie Cerebras und Tesla setzen damit neue Standards in der Chipentwicklung und zeigen Wege, die Computing-Industrie nachhaltiger zu gestalten. Die UCR-Gruppe bringt hier ihr breites Expertise zusammen, um sowohl die technischen als auch die ökologischen Aspekte dieser neuen Technologie zu beleuchten.