HyperAI
Back to Headlines

AMD Booste les Performances de la Matrice avec la Nouvelle Architecture CDNA 4 pour les Workloads d'Apprentissage Machine

il y a 17 jours

L'Annonce de l'Architecture CDNA 4 d'AMD Introduction La compagnie AMD a annoncé une mise à jour de son architecture de GPU orientée calcul, passant de CDNA 3 à CDNA 4. Bien qu'il s'agisse d'un raffinement progressif, CDNA 4 se distingue principalement par une augmentation significative de la performance des opérations de multiplication matricielle à faible précision, essentielles pour les charges de travail liées à l'apprentissage automatique. Ce résumé explore les principaux aspects de cette architecture, ses avantages par rapport aux concurrents, et les implications pour l'industrie. Les Précisions Techniques et les Performances Architectures Générales CDNA 4 maintient le même schéma d'architecture au niveau système que CDNA 3. Il repose sur un dispositif modulaire de "chiplets", similaire à celui utilisé avec succès par AMD pour ses processeurs. Spécifiquement, l'architecture se compose de huit Accélérateurs de Calcul (Accelerator Compute Dies, ou XCDs) surplombant quatre bases de silicium dotées d'une mémoire de côté de 256 MB chacune. L'Infinity Fabric d'AMD assure une gestion cohérente de la mémoire à travers l'ensemble du système, permettant ainsi une scalability entre plusieurs puces. Comparaison avec MI300X et B200 de Nvidia Comparativement au MI300X basé sur CDNA 3, le GPU MI355X équipé de CDNA 4 réduit légèrement le nombre de Compute Units (CUs) par XCD pour améliorer les rendements. Malgré cette réduction, le nouveau GPU compense en partie par des vitesses d'horloge plus élevées. Contrairement à AMD, Nvidia a adopté une stratégie de design multi-cœurs avec sa puce B200, rompant avec l'approche traditionnelle de designs monolithiques. Cependant, AMD reste loin devant avec une configuration de chiplets plus agressive et une expérience éprouvée en matière de scaling, tirée de leur conception CPU. Performance et Optimisation CDNA 3 offrait déjà un avantage significatif en termes de throughput vectoriel par rapport au H100 de Nvidia, mais son efficacité pour les charges de travail de machine learning était plus complexe. Nvidia, grâce à un écosystème logiciel mature et une forte emphase sur les opérations de multiplication matricielle ((tensor cores)), pouvait souvent atteindre des performances proches de celles du MI300X, notamment en utilisant des formats de données de faible précision. AMD, quant à lui, maintenait son avantage de manière massive lorsque le H100 manquait de VRAM. CDNA 4 a été conçu pour remédier à ces limitations, en optimisant spécifiquement la multiplication matricielle à faible précision. Le throughput matriciel par CU a été doublé dans de nombreux cas, alignant ainsi la performance des CUs de CDNA 4 avec celle des Shader Multiprocessors (SMs) de Nvidia B200 en format FP6. Cependant, Nvidia continue d'avoir une emphase plus marquée sur la multiplication matricielle à faible précision, affichant deux fois plus de throughput par cycle horaire pour des formats de 16-bit et 8-bit. AMD, en compensant par une puce plus grande et des vitesses d'horloge plus élevées, conserve tout de même une avance en termes de throughput total. Pour les opérations vectorielles et les données de haute précision, AMD maintient un avantage massif. Chaque CU de CDNA 4 dispose toujours de 128 lanes FP32, fournissant 256 FLOPS par cycle. Même si MI355X a un nombre de CUs légèrement inférieur à MI300X, ce déficit est largement compensé par des fréquences d'horloge plus élevées. Par conséquent, AMD continue de dominer dans les charges de travail de calcul haute performance, notamment grâce à un nombre de cœurs supérieur et des vitesses d'horloge plus hautes. Gestion de la Mémoire Locale Scratchpad et LDS Les GPUs fournissent un espace de stockage local géré par le logiciel, appelé scratchpad, pour un groupe de threads. Dans les GPUs AMD, cela prend la forme d'un Local Data Share (LDS) qui a été augmenté de 64 KB à 160 KB dans la transition de CDNA 3 à CDNA 4. La bande passante de lecture a également été doublée pour atteindre 256 octets par cycle horaire. Ces améliorations permettent aux noyaux de logiciel d'attribuer davantage de capacity à l'LDS sans réduire l'occupation due aux contraintes de capacité. Par exemple, un noyau allocant 16 KB d'LDS pourrait exécuter quatre groupes de travail sur un CU de CDNA 3. Avec CDNA 4, cela passerait à dix groupes de travail. En revanche, Nvidia doté de la puce Blackwell dispose d'une structure SM (Shader Multiprocessor) pouvant allouer jusqu'à 228 KB pour l'Shared Memory, et jusqu'à 92 KB pour le cache L1. Bien que Nvidia offre plus de stockage géré par le logiciel dans ses cœurs, AMD compense en dotant son GPU de 40 MB d'LDS au total, contre environ 33 MB pour le B200 avec l'allocation maximale de 228 KB de Shared Memory. Système de Cache et Subsystème de Mémoire Évolutions du Cache L2 Le MI355X apporte quelques enhancements à son système de cache L2. Une nouvelle fonctionnalité permet au cache L2 de stocker les données "sales" et de garder une copie de la ligne. Cette capacité permet à AMD d'utiliser opportunément la bande passante d'écriture quand le système de mémoire est peu sollicité, atténuant ainsi les pics de demande de bande passante causés par les requêtes de remplissage de cache accompagnées d'écritures. Subsystème de DRAM Le sous-système de mémoire DRAM a également été amélioré pour utiliser HBM3E, offrant une augmentation substantielle de la bande passante et de la capacité par rapport à sa précédente version. Cette mise à niveau fait de MI355X le GPU doté de la plus grande bande passante, capable d'atteindre 8 TB/s, contre 7.7 TB/s pour le B200 de Nvidia. En termes de capacité, le MI355X offre 288 GB, tandis que le B200 se limite à 180 GB. Ces améliorations signifient que MI355X conserve son avantage compétitif, notamment dans les cas où la VRAM est un bottleneck pour les charges de travail. Le ratio de calcul à la bande passante a également été amélioré. Alors que le MI300X avait un ratio de 0.03 octets de bande passante DRAM par FLOP FP32, le MI355X passe à 0.05. En comparaison, le Blackwell de Nvidia se situe à 0.10 octets de bande passante DRAM par FLOP FP32. Cette différence suggère que Nvidia mise davantage sur la bande passante de DRAM pour améliorer ses performances, alors qu'AMD s'appuie encore sur des caches volumineux. Nouvelles Instructions et Transpositions Amélioration des Instructions CDNA 4 introduit également de nouvelles instructions pour améliorer l'utilisation de l'LDS. Les instructions GLOBAL_LOAD_LDS ont été renforcées pour supporter le mouvement de 128 bits par voie, contre 32 bits sur CDNA 3. De plus, CDNA 4 inclut des instructions de transposition de l'LDS. La transposition des matrices simplifie les opérations inefficaces d'accès à la mémoire, souvent rencontrées lors de multiplications matricielles. Ces changements contribuent à accélérer les performances de calcul matricielles, un secteur crucial pour les applications de machine learning. Contexte et Stratégie Approche AMD vs. Nvidia L'évolution de CDNA 4 se rapproche de l'approche de Nvidia avec sa puce Blackwell. Les SMs de Blackwell sont similaires à ceux de Hopper en termes d'exécution vectorielle, mais les améliorations sont centrées sur l'amélioration de la multiplication matricielle. Cette similitude suggère que les deux entreprises ont identifié des formules gagnantes respectives, et cherchent à y apporter des raffinements plutôt que des revirements majeurs. Positionnement et Succès Futur Le GPU MI300X, cousin du MI355X, alimente actuellement le superordinateur le mieuxclassé sur la liste TOP500 de juin 2025, démontrant l'efficacité de CDNA 3. CDNA 4 représente une progression naturelle de cette réussite, apportant des optimisations ciblées pour améliorer spécifiquement les performances de machine learning tout en conservant son avantage sur le calcul haute performance. Évaluations et Profils Industriels Les professionnels de l'industrie s'accordent à reconnaître que les améliorations de CDNA 4 sont importantes, bien que moins radicales que celles introduites par les précédentes versions. L'approche d'AMD, consistant à perfectionner une architecture déjà robuste plutôt que de partir d’une feuille blanche, est vue comme une stratégie prudente et potentiellement récompensante. Les gains de performance apportés, particulièrement dans les opérations de machine learning, confortent AMD dans sa position de leader pour les charges de travail de calcul haute performance, tout en réduisant l'écart avec Nvidia dans les tâches de machine learning. Profil de l'Entreprise AMD AMD est une entreprise majeure dans le domaine des semi-conducteurs, célèbre pour ses processeurs Ryzen et ses cartes graphiques Radeon. La société a connu un essor considérable ces dernières années, rivalisant efficacement avec Intel et Nvidia. Avec CDNA 4, AMD cherche à capitaliser sur son succès antérieur, notamment dans les solutions pour le calcul haute performance, tout en répondant aux besoins croissants du marché de l'apprentissage automatique. Conclusion L'annonce de l'architecture CDNA 4 d'AMD marque une étape importante dans la quête de l'entreprise pour rester compétitive dans le domaine des GPU de calcul. Tandis que les améliorations sont plus subtiles par rapport aux évolutions majeures des générations précédentes, elles ciblent efficacement les domaines cruciaux tels que la multiplication matricielle à faible précision et le throughput vectoriel. Ces raffinements permettent à AMD de maintenir un avantage significatif dans les charges de travail de calcul haute performance, tout en réduisant l'écart avec Nvidia dans les applications de machine learning. Avec des configurations de chiplets plus agressives et une continuité stratégique, AMD semble bien positionné pour continuer à influencer le paysage des GPU de calcul dans les années à venir.

Related Links