HyperAIHyperAI

Command Palette

Search for a command to run...

AWS integriert KI-Chip Trainium4 mit NVIDIA NVLink

Amazon Web Services (AWS) hat auf der re:Invent-Konferenz 2025 die nächste Generation seiner eigenen KI-Chips, Trainium3, vorgestellt und erste Einblicke in den kommenden Trainium4 gegeben. Der neue Trainium3-Chip, gebaut in 3-Nanometer-Technologie, ist laut AWS mehr als viermal schneller als sein Vorgänger Trainium2 und verfügt über viermal mehr Speicher. Er ist zudem 40 Prozent energieeffizienter. Die neuen UltraServer-Systeme, die mit dem Chip ausgestattet sind, können jeweils 144 Chips beherbergen und ermöglichen über tausende verbundene Server eine Gesamtanzahl von bis zu einer Million Trainium3-Chips – zehnmal mehr als bei der vorherigen Generation. Diese Leistungssteigerung soll sowohl beim Training als auch bei der Bereitstellung von KI-Anwendungen bei Spitzenlasten entscheidend sein. Ein zentraler Faktor für den Erfolg von Trainium2 ist bereits jetzt der starke Marktanteil: Laut AWS ist der Chip ein mehrere Milliarden Dollar schweres Geschäftsmodell, mit über einer Million Chips im Einsatz und mehr als 100.000 Unternehmen, die ihn nutzen – darunter viele, die AWS’ KI-Entwicklungswerkzeug Bedrock verwenden. Besonders bedeutend ist die Zusammenarbeit mit Anthropic, die über das Projekt „Rainier“ mehr als 500.000 Trainium2-Chips einsetzt, um die nächsten Generationen von Claudes Modellen zu trainieren. Das Projekt, ein riesiger KI-Cluster über mehrere Rechenzentren in den USA, ist ein klares Zeichen für die wachsende Abhängigkeit von AWS-Infrastruktur. AWS baut zudem auf einer tiefen technologischen Partnerschaft mit NVIDIA, die mit der Integration von NVLink Fusion in die Trainium4-Plattform weiter vertieft wird. Mit der NVLink Fusion-Plattform, die auf der MGX-Rack-Architektur basiert, kann AWS künftig Trainium4-Chips mit NVIDIA-GPUs in einem einzigen System verbinden. Dies ermöglicht eine nahtlose Skalierung und Interoperabilität, was besonders wichtig ist, da die meisten KI-Softwareanwendungen auf NVIDIAs CUDA-Plattform basieren. Durch die Unterstützung von NVLink 6 und der hochgeschwindigen, niedriglatenzigen Skalierbarkeit über ganze Racks kann die Leistung erheblich gesteigert werden – bis zu 260 TB/s Skalierungsbandbreite bei 72 ASICs. Die Plattform reduziert zudem Entwicklungszeiten und -kosten, da sie eine etablierte Ökosystem-Infrastruktur mit Komponenten wie GPUs, DPUs, Netzwerkkarten und Kühl- und Stromversorgungssystemen bereitstellt. Durch die Kombination von Eigenentwicklung, energieeffizienter Architektur und Interoperabilität mit bestehenden Technologien wie NVLink und CUDA will AWS nicht nur die Dominanz von NVIDIA herausfordern, sondern auch Kunden mit besseren Preis-Leistungs-Verhältnissen überzeugen. Die Fähigkeit, heterogene Silizium-Plattformen in derselben Infrastruktur zu betreiben, erlaubt eine flexible Skalierung für anspruchsvolle KI-Workloads wie agentic AI, Planung und Reasoning. Obwohl nur wenige Unternehmen wie Google, Microsoft, Meta und Amazon über die nötige Expertise in Chip-Design, Netzwerktechnologie und Software-Ökosysteme verfügen, um ernsthaft mit NVIDIA konkurrieren zu können, zeigt AWS mit Trainium3 und dem geplanten Trainium4, dass es auf einem klaren Wachstumspfad ist. Die strategische Verbindung mit NVIDIA und die Fokussierung auf Effizienz und Kosteneinsparung machen AWS zu einem bedeutenden Akteur im globalen KI-Infrastrukturmarkt.

Verwandte Links