HyperAI
Back to Headlines

AMD stellt MI350X und MI355X AI-GPUs vor, bis zu 4-fach Leistungssteigerung, 35-fach schnelleres Inferenz, 1400 Watt Verbrauch

vor 14 Tagen

AMD hat bei seinem Event "Advancing AI 2025" in San Jose, Kalifornien, seine neuen GPU-Modelle MI350X und MI355X für künstliche Intelligenz (AI) und Hochleistungsrechnen (HPC) vorgestellt. Diese Chips sind eine bedeutende Verbesserung gegenüber der vorherigen MI300X-Serie und sollen AMD dabei helfen, den Marktgegner Nvidia einzuholen. Hier sind die wesentlichen Entwicklungen und Details: Die MI350X und MI355X sind auf der neuesten CDNA 4-Architektur basierend und nutzen den fortschrittlicheren Prozessknoten N3P von TSMC. Sie bieten bis zu 288 GB HBM3E-Speicher und bis zu 8 TB/s Speicherbandbreite. Die Hauptunterschiede liegen in der Kühlung und dem Leistungsverbrauch: Der MI350X ist für luftgekühlte Lösungen mit einem maximalen Verbrauch von 1000 W ausgelegt, während der MI355X für flüssigkeitsgekühlte Systeme konzipiert wurde und bis zu 1400 W verbraucht. AMD behauptet, dass die neuen GPUs im Vergleich zur MI300X-Serie eine 3-fache Leistungssteigerung bieten und bei Inferences-benchmarks bis zu 1.3-fach schneller als Nvidias GB200 und B200 sind. In Trainingsworkloads führt AMD einen Leistungsbonus von bis zu 1.13-fach gegenüber Nvidias Chips an. Die Leistungsdichte wurde durch die Verwendung von flüssigkeitsgekühlten Systemen erheblich verbessert, was es ermöglicht, mehr Leistung in einem einzelnen Rack unterzubringen. Dies reduziert die Gesamtkosten pro Leistungseinheit (Total Cost of Ownership, TCO). Der Chief Technology Officer von AMD, Mark Papermaster, stellte die neuen MI350X und MI355X-Acceleratoren bei der ISC 2025 vor. Er betonte, dass die neuen Chips besonders für Inference-Aufgaben optimiert sind, wobei die Scale-out-Größe der MI350X auf acht GPUs begrenzt ist. Dies reduziert ihre Wettbewerbsfähigkeit im Vergleich zu Nvidias Blackwell-GPUs, obwohl Partner wie Pegatron bereits an einer 128-GPU-Maschine arbeiten. Die beiden GPUs teilen sich eine identische Grundstruktur, wobei die XCD-Chiplets auf TSMCs N3P-Prozessknoten hergestellt werden. Jedes XCD-Chiplet verfügt über 32 Rechenkerne (Compute Units, CU), insgesamt 256 CU. Das Gesamtsystem umfasst 185 Milliarden Transistoren, was eine Steigerung um 21 % gegenüber der Vorgängergeneration darstellt. Die I/O-Dies (IOD) wurden von vier auf zwei Kacheln reduziert, was die Infinitiy-Fabric-Busbreite verdoppelt und gleichzeitig den Stromverbrauch senkt, was wiederum mehr Energie für die Rechenleistung freisetzt. Die neueren GPUs unterstützen auch die FP4- und FP6-Datentypen, die in AI-Arbeitsbelastungen zunehmend relevant geworden sind, insbesondere für Inference. Im Papierformat übertreffen sowohl MI350X als auch MI355X Nvidias B300-GPU, die bei FP4 eine maximale Leistung von 15 PFLOPS erreicht. Die MI355X bietet hierbei sogar eine leicht höhere Leistung von 20.1 PFLOPS bei FP4 und FP6. In den Vergleichsbewertungen zeigte AMD, dass ein acht-GPU-MI355X-Setup in verschiedenen Benchmarks zwischen 1.2- und 1.3-fach schneller als Nvidias vier-GPU-DGX GB200 oder acht-GPU-B200 HGX-Lösungen ist. In Trainingsszenarien liegt AMD entweder auf Augenhöhe oder hat einen leichten Vorteil in verschiedenen Llama-Modellen. Die neuen GPUs werden in OAM-Formfaktor (Open Accelerator Module) und standardisierten UBB-Servern (Open Compute Project Specification) eingesetzt, was die Implementierung vereinfacht. AMD bietet sowohl luftgekühlte als auch flüssigkeitsgekühlte Rack-Lösungen an, wobei die flüssigkeitsgekühlten Versionen bis zu 128 MI355X-GPUs und 36 TB HBM3E-Speicher aufweisen, während die luftgekühlten Lösungen bei 64 GPUs und 18 TB HBM3E stagnieren. Papermaster betonte auch, dass die Branche weiterentwickeln wird, um zukünftige Supercomputer mit ZettaFLOPS-Leistung zu erreichen. Dies wird jedoch mit stark steigenden Energiebedürfnissen verbunden, wobei AMDs Prognose für 2026-2027 bei 1,6 kW pro GPU liegt und später im Jahrzehnt bei 2 kW. Nvidia geht noch ambitionierter vor, mit erwarteten Leistungsanforderungen von 3,6 kW für seine Rubin Ultra-GPUs. Um die Leistungsfähigkeit von Supercomputern weiter zu steigern, müssen nicht nur architektonische Fortschritte erzielt werden, sondern auch das Speicherbandbreiten- und Energieeffizienzniveau muss ansteigen. Die Energieeffizienz sollte sich alle 2,2 Jahre verdoppeln, um die zukünftigen Energieanforderungen in den Griff zu bekommen. Ein zukünftiger ZettaFLOPS-Supercomputer würde etwa 500 MW Energie verbrauchen, was etwa halb so viel ist, wie ein Kernkraftwerk produziert. Ohne diese Effizienzsteigerungen könnten zukünftige Supercomputer gigawattstarke Energie verbrauchen, was sie extrem teuer machen würde. AMD hat außerdem eine Reihe von Erwerbungen durchgeführt und eine wachsende Reihe von OEM-Partnern (Original Equipment Manufacturers) angezogen, um seine Position in der rack-skalierten Architektur zu stärken. Dies zeigt das Engagement des Unternehmens, in den kommenden Jahren wettbewerbsfähig zu bleiben und die Branche weiter voranzutreiben. Experten der Branche sehen dies als einen wichtigen Schritt, um den technologischen Fortschritt in der AI und HPC-Branche aufrechtzuerhalten.

Related Links