AMD präsentiert CDNA 4-GPU-Architektur mit verbessertem Machine-Learning-Performance.
AMD hat kürzlich seine neueste GPU-Architektur für High-Performance Computing (HPC), die CDNA 4, vorgestellt. Diese Architektur stellt eine moderate Aktualisierung der vorherigen CDNA 3 dar und konzentriert sich hauptsächlich auf den Verbesserung der Matrizenmultiplikation mit niedrigeren Genauigkeitsdatentypen, was für maschinelles Lernen entscheidend ist. Gleichzeitig strebt AMD danach, seine Führung in allgemein einsetzbaren Vektoreinheiten zu behalten. Die CDNA 4-Architektur nutzt weitgehend das gleiche Systemdesign wie CDNA 3. Es handelt sich um eine Chiplet-Anordnung, die von AMD bei CPU-Produkten erfolgreich eingesetzt wurde. Die Chiplets bestehen aus acht Accelerator Compute Dies (XCDs), die CDNA Compute Units enthalten, und vier Basischiplets, die 256 MB Speichercache implementieren. AMDs Infinity Fabric ermöglicht die konsistente Speicherzugriff über das gesamte System, das mehrere Chiplets umfassen kann. Verglichen mit der auf CDNA 3 basierenden MI300X, reduziert die MI355X, die die CDNA 4-Architektur nutzt, die Anzahl der Compute Units (CUs) pro XCD und deaktiviert mehr CUs, um die Ausbeute zu erhöhen. Die resultierende GPU ist etwas schmaler, macht aber durch höhere Taktraten diesen Nachteil wieder wett. Im Vergleich zu Nvidias B200 sind sowohl MI355X als auch MI300X größere GPUs mit vielen mehr grundlegenden Bausteinen. Obwohl Nvidia mit der B200 einen Multi-Chip-Ansatz eingeführt hat, ist AMDs Chiplet-Setup weitaus aggressiver und zielt darauf ab, die Skalierungsleistung, die sie bei CPUs erzielt hat, auch bei großen Comput-GPUs zu wiederholen. Mit CDNA 3 hatte AMD einen deutlichen Vorteil in Vektoreinheiten gegenüber Nvidias H100, jedoch war die Situation bei maschinellen Lernworkloads komplizierter. Dank eines reifen Software-Ökosystems und starker Fokussierung auf Matrizenmultiplikation (Tensor Cores) konnte Nvidia oft nahe an den Leistungen der nominell viel größeren MI300X herankommen. AMD behielt zwar große Siege, wenn der H100 an VRAM-Mangel litt, aber es gab definitiv Raum für Verbesserungen. Die CDNA 4-Architektur optimiert ihre Ausführungsbausteine, um die Matrizenmultiplikation mit niedrigeren Genauigkeitsdatentypen besser zu unterstützen. Die Matrizen-Durchsatzleistung pro CU verdoppelt sich in vielen Fällen, wobei die CDNA 4-CUs in FP6 die Leistung der Nvidias B200 SMs erreichen. Allerdings zeigt Nvidia weiterhin einen stärkeren Fokus auf niedriggenaue Matrizen-Durchsatzleistung. Die B200 SMs haben doppelt so viel Durchsatz pro Takt wie ein CDNA 4 CU bei einer Vielzahl von 16-Bit- und 8-Bit-Datentypen. AMD hält seinen Gesamtdurchsatzvorteil durch eine größere, höher getaktete GPU. Bei Vektoreinheiten und höhergenauen Datentypen behält AMD den Vorteil seines MI300X-Modells. Jeder CDNA 4 CU verfügt weiterhin über 128 FP32-Spurweiten, die bei der Berücksichtigung von FMA-Operationen 256 FLOPS pro Zyklus liefern. Obwohl die MI355X eine geringere CU-Anzahl hat, führt dies zu einer geringfügigen Verringerung der Vektordurchsatzleistung im Vergleich zur MI300X. Dennoch kann AMD dank seiner höheren Kernanzahl und höheren Taktraten gegenüber Nvidias Blackwell eine enorme Vektordurchsatzleistung aufrechterhalten. Daher bleibt AMDs CDNA-Reihe für HPC-Workloads sehr attraktiv. Maschinelles Lernen und Matrizenoperationen bleiben ein Wettbewerbsbereich, in dem Nvidia sehr konkurrenzfähig ist, trotz weniger SMs bei niedrigeren Taktraten. AMDs MI355X behält die Führung bei vielen Datentypen, aber der Abstand zwischen den größten GPUs von AMD und Nvidia ist nicht mehr so groß wie bei Vektorkalkulationen. GPUs verfügen über eine softwaregesteuerte Scratchpad-Speicherung, die lokal zu einem Gruppe von Threads ist. AMD verwendet für diesen Zweck ein Local Data Share (LDS), während Nvidia diesen Speicherbereich als Shared Memory bezeichnet. Bei CDNA 3 hatte das LDS eine Kapazität von 64 KB, was eine ähnliche Designrichtung wie bei den AMD GCN GPUs seit 2012 darstellt. Die Kapazität des LDS wurde bei CDNA 4 auf 160 KB erhöht, und die Lesebandbreite verdoppelt sich auf 256 Byte pro Takt. Dies ermöglicht es der Software, mehr Daten nah an den Ausführungsbausteinen zu halten, ohne dass die Auslastung durch LDS-Kapazitätsbeschränkungen sinkt. Zum Beispiel kann ein Kernel, der 16 KB LDS zuweist, bei CDNA 3 vier Workgroups auf einem CU ausführen. Bei CDNA 4 steigt diese Zahl auf zehn Workgroups. Um den Vorteil des größeren LDS vollständig zu nutzen, muss die Software Daten explizit in den LDS verschieben, was Overhead im Vergleich zum Einsatz eines hardwaregesteuerten Caches bedingen kann. CDNA 4 erweitert die GLOBAL_LOAD_LDS-Anweisungen, um bis zu 128 Bit pro Spur zu verschieben, verglichen mit 32 Bit pro Spur bei CDNA 3. Dies bedeutet, dass die GLOBAL_LOAD_LDS-Anweisung nun Größen von 1, 2, 4, 12 oder 16 DWORDS (32-Bit-Elemente) akzeptieren kann, während bei CDNA 3 nur 1, 2 oder 4 möglich waren. Außerdem führt CDNA 4 neue LDS-Anweisungen mit Transposition ein. Matrizenmultiplikation erfordert oft ineffiziente Speicherzugriffsmuster, insbesondere wenn die Daten in Zeilen- oder Spaltenmajor-Form angelegt sind. Die Transposition einer Matrix macht die unangenehme Zeile-zu-Spalte-Operation zur natürlicheren Zeile-zu-Zeile-Operation. Dies ist besonders sinnvoll für AMDs Architektur, da das LDS bereits einen Crossbar besitzt, der Bankausgänge auf Spuren abbilden kann (Swizzle). Trotz der erhöhten LDS-Kapazität verfügt AMD weiterhin über weniger Speicher innerhalb seiner GPU-Kerne im Vergleich zu Nvidia. Die SMs von Blackwell haben einen 256 KB Speicherblock, der sowohl als L1-Cache als auch als Shared Memory genutzt werden kann. Bis zu 228 KB können als Shared Memory zugeordnet werden. Bei einer Shared Memory-Zuweisung von 164 KB, die der 160 KB LDS von AMD entspricht, verfügt Nvidia immer noch über 92 KB für L1-Caching. Jeder Blackwell SM kann somit mehr softwaregesteuertes Speicherfeld haben, während er gleichzeitig über einen größeren L1-Cache verfügt als ein CDNA 4 CU. Allerdings bedeutet AMDs höhere CU-Anzahl eine Gesamtkapazität von 40 MB LDS über die GPU, während Nvidia bei B200 mit der größten Shared Memory-Zuweisung von 228 KB nur etwa 33 MB Shared Memory hat. Um die riesigen Arrays von Compute Units zu versorgen, nutzt die MI355X weitgehend das gleiche Systemdesign wie die MI300X. Es gibt jedoch einige Verbesserungen. Die L2-Caches können "dreckige" Daten zurückgeschrieben und eine Kopie der Zeile beibehalten. "Dreckig" bezieht sich auf Daten, die in einem Rückgabecache modifiziert wurden, aber noch nicht an niedrigere Ebenen des Speichersystems weitergegeben wurden. Wenn eine dreckige Zeile ausgewählt wird, um Platz für neuere Daten zu schaffen, werden ihre Inhalte zurückgeschrieben, entweder in den nächsten Cache-Level oder in das DRAM, wenn es sich um den letzten Cache-Level handelt. AMD könnte dabei versuchen, die Schreibbandbreite zu nutzen, wenn das Speichersystem unter geringer Belastung steht, um Bandbreitenanforderungen glattzustutzen. Oder AMD könnte spezielle Maßnahmen ergreifen, um die L2-Zeile in einen sauberen Zustand zu versetzen, falls die geschriebenen Daten wahrscheinlich von anderen Threads gelesen, aber nicht in absehbarer Zeit erneut modifiziert werden. Die DRAM-Subsystem der MI355X wurde auf HBM3E aktualisiert, was einen beträchtlichen Bandbreiten- und Kapazitätsschub gegenüber Vorgängermodellen und einer Fortsetzung von AMDs Vorteil gegenüber Nvidias Konkurrenz bedeutet. Während die B200 bei 180 GB Kapazität und 7,7 TB/s Bandbreite liegt, bietet die MI355X 288 GB Kapazität und 8 TB/s Bandbreite. Dieser hohe Bandbreitenvorteil hilft auch, das Verhältnis von Rechenleistung zu Bandbreite der MI355X zu verbessern. Während die MI300X bei etwa 0,03 Byte DRAM-Bandbreite pro FP32-FLOP lag, steigt dieser Wert bei der MI355X auf 0,05. Für den Vergleich: Blackwell erreicht etwa 0,10 Byte DRAM-Bandbreite pro FP32-FLOP. Obwohl Nvidia die Kapazität des letzten Cache-Level bei Blackwell erhöht hat, setzt AMD stärker auf große Caches, während Nvidia sich mehr auf DRAM-Bandbreite konzentriert. Die Änderungen von CDNA 4 sind weniger umwälzend als die von CDNA 2 und CDNA 3. Ähnlich wie der Übergang von Zen 3 zu Zen 4 behält die MI355X eine ähnliche Chiplet-Anordnung bei, bei der die Computechiplets und I/O-Chiplets durch verbesserte Versionen ersetzt werden. Stattdessen konzentrierte sich AMD auf die Feinabstimmung der CDNA 3. Weniger, aber höher getaktete CUs sind einfacher zu nutzen, und die erhöhte Speicherbandbreite kann ebenfalls die Nutzung verbessern. Der höhere Matrizenmultiplikationsdurchsatz hilft AMD, bei maschinellen Lernworkloads mit Nvidia mithalten zu können. Insgesamt zeichnen sich bei AMDs Ansatz Parallelen zu Nvidias Herangehensweise ab. Die Blackwell SMs sind im Grunde identisch mit den Hoppers bei der Vektorausführung, wobei die Verbesserungen auf der Matrizenseite fokussiert sind. Nvidia hat wahrscheinlich das Gefühl, eine gewinnbringende Formel gefunden zu haben, wie die letzten GPU-Generationen zeigen. AMD könnte mit der CDNA 3 ebenfalls eine solche Formel gefunden haben. Das MI300A, das Pendant der iGPU zur MI300X, steht an der Spitze der TOP500-Supercomputerliste vom Juni 2025. Ein Bau auf Erfolg kann eine sichere und belohnende Strategie sein, und CDNA 4 könnte genau das tun. Industrieexperten bewerten die CDNA 4-Architektur positiv, da sie AMDs Stärken in der Vektorausführung und der Speicherbandbreite weiter ausbaut. Die moderate Aktualisierung spiegelt eine strategische Entscheidung wider, die bestehenden Vorteile zu konsolidieren, anstatt komplett neue Wege einzuschlagen. AMDs Chiplet-Design hat in der Vergangenheit bereits bei CPUs ausgezeichnete Ergebnisse geliefert, und es ist wahrscheinlich, dass es auch bei großen Comput-GPUs ähnliche Vorteile bieten wird. Die Fähigkeit, Software-Ökosysteme zu integrieren und kontinuierlich zu verbessern, bleibt ein wichtiger Faktor für den Erfolg in diesem Wettbewerb.