HyperAI超神経
Back to Headlines

AMD、CDNA 4アーキテクチャ発表:AI向け性能大幅向上とベクトル演算の優位性維持

3日前

AMDは最新のGPUアーキテクチャ「CDNA 4」を発表しました。これはCDNA 3の進化版で、主に低精度データ型での行列演算性能を大幅に向上することで、機械学習タスクにおける競争力を高めることを目指しています。行列演算は、機械学習の負荷において精度が低いデータ型でも十分正確な結果を出せるため、低精度での処理能力が重要となります。 CDNA 4は基本的なシステムレベルのアーキテクチャではCDNA 3と同様ですが、チップレット構造によりスケーラビリティを強化しています。Accelerator Compute Dies (XCDs) には、CDNA コンピューティングユニットが含まれ、CPU製品のCore Complex Dies (CCDs)に相当します。MI355Xは8つのXCDを4つのベースダイの上に配置し、それぞれのベースダイに256MBのメモリサイドキャッシュを実装しています。AMDのInfinity Fabricは、複数のチップ間での一貫したメモリアクセスを提供します。 MI355Xは、CDNA 3に基づくMI300XからCU数をやや削減し、より高いクロック周波数で動作することで、全体の性能差を補っています。NvidiaのB200と比較すると、MI355XとMI300はもっと大規模で基本ブロック数も多いですが、Nvidiaはマルチダイ戦略を採用して、一貫性のある高性能を追求しています。それでも、AMDのチップレット設計はCPU製品での成功を再現を目論んでおり、スケーリングの面で優れる可能性があります。 CDNA 3はベクトル演算ではNvidiaのH100に対して巨大な性能差を持cíていましたが、マシンラーニングワークロードでは状況がやや複雑でした。Nvidiaの健全なソフトウェアエコシステムとTensor Coresによる行列演算処理の着重点によって、H100はMI300Xに匹敵する性能を発揮できた場合がありました。VRAM不足時にはAMDが圧倒的でありましたが、改善の余地がありました。 CDNA 4では、低精度データ型の行列演算に特化した実行単位のバランスを再検討しています。結果として、多くの場合、Per-CUの行列演算吞吐量は2倍になり、NvidiaのB200のストリーミングマルチプロセッサ (SMs) と同等のFP6性能を達成しました。一方で、NvidiaのB200は16ビットや8ビットのデータ型での単精度行列演算吞吐量では引き続き優れています。AMDは大きなGPUと高いクロック周波数により全体的な吞吐量の優位性を維持しています。 ベクトル演算と高精度データ型に関しては、AMDは依然として巨大なアドバンテージを持っています。CDNA 4の各CUには128 FP32レーンがあり、FMAオペレーションをカウントすると1サイクルあたり256 FLOPSの性能を提供します。MI355XのCU数減少はベクトル性能にも若干の影響を与えますが、NvidiaのBlackwellに対しては高いコア数とクロック速度により、依然として巨大な吞吐量のリードを保っています。 また、CDNA 4はLDS (Local Data Share) の容量を64KBから160KBに増加させ、読み取り帯域幅を256バイト/クロックに倍増させました。これはソフトウェアが実行単位の近くに保持できるデータ量を増やし、LDSの使用により効率的なキーネルの実行を可能にします。さらに、CDNA 4はGLOBAL_LOAD_LDS命令を拡張し、レーンあたり最大128ビットのデータ移動をサポートしました。これにより、データの移動に伴うオーバーヘッドが軽減され、キーネルの性能が向上します。 最後に、MI355XのDRAMサブシステムもHBM3Eへのアップグレードを行い、メモリ容量と帯域幅で競争相手であるNvidia B200に対して優れている性能を示しています。NvidiaのBlackwellと比較しても、MI355Xは288GBの容量と8TB/sの帯域幅を誇ります。これは、NvidiaのH100から更なる优势を維持する戦略の一環であると見られます。 業界関係者は、AMDがCDNA 4によって機械学習タスクでの競争力を高めたと考えています。特に、ベクトル演算と高精度データタイプでの優れた性能は、高性能コンピューティング市場での有力参入者としての地位を固めています。AMDは、2025年6月のTOP500スーパーコンピューターリストで最高位のスーパーコンピューターを駆動するMI300Aを通じて、その戦略的成功を証明しています。

Related Links