AMD dévoile MI350X et MI355X, jusqu'à 4X plus performants, 35X plus rapides pour l'inférence, 1400W.
AMD a dévoilé ses nouvelles cartes graphiques MI350X et MI355X lors de l'événement "Advancing AI 2025" à San José, en Californie. Ces accélérateurs, conçus pour les charges de travail d'IA, offrent jusqu'à 3 fois plus de puissance par rapport à la génération précédente, le MI300X. AMD affirme que ces cartes surpassent les GPU concurrents de Nvidia dans plusieurs domaines, notamment avec une avance de 1,3 fois pour les benchmarks d'inférence et de 1,13 fois pour certaines charges de formation. Les deux modèles, MI350X et MI355X, partagent une conception similaire, avec jusqu'à 288 Go de mémoire HBM3E et une bande passante de mémoire atteignant 8 To/s. Cependant, le MI350X est conçu pour des solutions refroidies par air avec une consommation électrique maximale de 1000W, tandis que le MI355X, destiné aux systèmes refroidis par liquide, peut consommer jusqu'à 1400W. Cette augmentation de la consommation d'énergie est justifiée par une densité de performance accrue, permettant aux clients d'optimiser la performance par rapport au coût total de possession (TCO). L'architecture CDNA 4, sur laquelle repose la série MI350X, introduit le support de nouveaux formats de précision, tels que FP4 et FP6, en plus des formats FP8 et FP16 déjà utilisés. Ces formats de précision inférieure sont particulièrement pertinents pour les charges de travail d'IA, notamment pour l'inférence. AMD a également augmenté la capacité de transistors de 185 milliards, soit une augmentation de 21% par rapport à la génération précédente. La mémoire Infinity Cache, située devant l'HBM3E, reste un élément clé de la conception. Mark Papermaster, chef de la technologie chez AMD, a présenté ces avancées lors de l'ISC 2025, soulignant une amélioration significative des performances d'inférence, mais aussi une consommation d'énergie presque doublée pour le GPU phare MI355X par rapport à son prédécesseur de 2023. Les modules MI350X et MI355X sont disponibles en format OAM et peuvent être intégrés dans des serveurs standard UBB (OCP spec), facilitant ainsi leur déploiement rapide. AMD a également mis en avant ses performances comparatives, affirmant que huit GPU MI355X offrent des performances allant de 1,2 à 1,3 fois supérieures à celles de huit GPU B200 HGX de Nvidia dans des benchmarks d'inférence. Pour les charges de formation, AMD revendique soit une égalité, soit un avantage de 1,13 fois dans une gamme de modèles Llama. Bien que ces affirmations soient à prendre avec prudence, elles indiquent clairement l'intention d'AMD de concurrencer Nvidia de manière sérieuse dans le domaine de l'IA. Le développement de ces GPU s'inscrit dans une stratégie plus large visant à améliorer la performance des supercalculateurs. AMD a montré que les supercalculateurs suivent une trajectoire où la performance double environ tous les 1,2 ans depuis 1990. Initialement dominés par des systèmes CPU uniquement, ils ont évolué vers des architectures hétérogènes combinant CPU et GPU à partir de 2005. Aujourd'hui, l'ère de l'accélération IA voit des systèmes comme El Capitan et Frontier dépasser 1 ExaFLOP, poursuivant cette tendance exponentielle avec du matériel de plus en plus spécialisé. Cependant, cette croissance de la performance s'accompagne d'une consommation d'énergie croissante. Par exemple, le MI300X introduit en milieu de 2023 consommait 750W, tandis que le MI355X annoncé cette semaine atteint 1400W. Papermaster envisage des accélérateurs consommant 1600W en 2026-2027 et 2000W d'ici la fin de la décennie. Nvidia, quant à lui, semble encore plus ambitieux avec des GPU Rubin Ultra prévus pour consommer jusqu'à 3600W. Malgré cette augmentation, l'efficacité énergétique des supercalculateurs a considérablement progressé, passant de 3,2 GFLOPS/W en 2010 à 52 GFLOPS/W avec les systèmes exascalaires actuels. Pour maintenir ce rythme de croissance de la performance, il faudra doubler l'efficacité énergétique tous les 2,2 ans. Un système zettascalair offrant une performance 1000 fois supérieure à celle des systèmes exascalaires actuels nécessiterait environ 500 MW d'énergie à un niveau d'efficacité de 2140 GFLOPS/W. Sans ces gains, les futures supercalculateurs pourraient nécessiter des centrales nucléaires entières pour fonctionner, rendant leur exploitation extrêmement coûteuse. Pour atteindre ces objectifs ambitieux, AMD a entrepris une série d'acquisitions et développé un réseau de partenaires OEM solides afin de renforcer ses capacités en matière d'architectures à l'échelle du rack. Ces efforts visent à combler le retard d'AMD par rapport à Nvidia en termes de performance et d'efficacité énergétique, tout en s'adaptant aux défis croissants de la bande passante de la mémoire et de la consommation d'énergie. En conclusion, AMD se positionne comme un challenger sérieux de Nvidia dans le domaine de l'IA et de l'HPC avec ses nouvelles cartes graphiques MI350X et MI355X. Bien que la consommation d'énergie soit en hausse, l'accent mis sur l'efficacité énergétique et l'optimisation des performances par rack offre des perspectives prometteuses pour l'avenir. Les avancées technologiques d'AMD et son engagement dans l'innovation continueront à jouer un rôle crucial dans la course vers les supercalculateurs zettascalaires.