HyperAI초신경
Back to Headlines

AMD, MI350X와 MI355X AI GPU 발표... 최대 4배 성능 향상, 추론 속도 35배 빨라져

14일 전

AMD는 최근 캘리포니아 샌호세에서 개최된 'Advancing AI 2025' 행사를 통해 새로운 AI 워크로드용 MI350X와 MI355X GPU를 공개하며, 이전 세대 MI300X에 비해 최대 3배의 성능 향상을 제공한다고 주장했다. 이를 통해 AMD는 시장 리더인 엔비디아와의 경쟁력을 크게 강화할 것으로 기대된다. AMD는 특히 추론 작업에서 엔비디아보다 최대 1.3배 빠르고, 일부 학습 작업에서는 최대 1.13배 뛰어난 성능을 보여준다고 밝혔다. 이 두 모델은 동일한 기본 디자인을 공유하며, 최대 288GB의 HBM3E 메모리와 최대 8TB/s의 메모리 대역폭, 그리고 FP4와 FP6 데이터 타입 지원을 특징으로 한다. 그러나 MI350X는 공냉 솔루션을 위해 설계되었으며, 낮은 총 보드 전력(TBP)을 제공하는 반면, MI355X는 액체 냉각 시스템을 활용해 최고 성능을 발휘하기 위해 전력 소비를 높였다. MI355X의 TBP는 1,400W로, 이는 이전 세대 MI300X의 750W와 MI325X의 1,000W보다 크게 증가한 수치이다. MI350 시리즈의 새로운 GPU는 CDNA 4 아키텍처를 채택했으며, 이는 5nm 공정에서 TSMC의 N3P 공정으로 전환되면서 엄청난 성능 향상을 가져왔다. 전체 칩은 185억 개의 트랜지스터를 갖추며, 이는 이전 세대의 153억 개보다 21% 증가한 수치이다. 또한, I/O 디바이스(IOD)는 네 개의 타일에서 두 개로 축소되어 디자인이 단순화되었고,Infinity Fabric 버스 폭도 두 배로 늘어났다. 이로 인해 전력 소비가 줄어들었으며, 그만큼 더 많은 전력이 컴퓨팅에 할당될 수 있게 되었다. AMD의 새로운 GPU는 OAM 형태로 제공되며, OCP 스펙에 맞는 UBB 형태 서버에 쉽게 장착할 수 있다. 이는 배포 시간을 단축시키는 데 도움이 된다. MI350X와 MI355X는 각각 8개의 가속기 모듈을 사용하여 노드 간 통신을 수행하며, 각 노드는 AMD의 5세대 EPYC 'Turin' 프로세서 두 개로 구동된다. 액체 냉각 시스템을 사용하는 DLC 랙은 128개의 MI355X GPU와 36TB의 HBM3E를 탑재할 수 있으며, 공냉 시스템을 사용하는 AC 랙은 64개의 GPU와 18TB의 HBM3E를 지원한다. 성능 벤치마크에서는 8개의 MI355X GPU 구성이 엔비디아의 B200 HGX 구성과 비교해 최대 1.2배 빠른 추론 성능을 보였으며, Llama 3.1 405B 모델에서는 비슷한 성능을 나타냈다. 학습 작업에서도 MI355X는 엔비디아 B200와 거의 비슷하거나 최대 1.13배 뛰어난 성능을 보여주었다. 그러나 이러한 성능 향상은 전력 소비 증가를 의미하기도 하며, 엔비디아의 Rubin Ultra GPU가 최대 3,600W의 전력을 소비할 것으로 예상되는 것과 비교하면 AMD의 전력 소비 증가율은 상대적으로 낮다. 미래를 내다보며, AMD의 마크 페이퍼마스터 최고기술책임자는 산업계가 10년 후 저타스케일(zettascale) 성능을 달성하기 위해 더욱 강력한 CPU와 가속기를 개발할 것으로 확신한다. 그러나 이는 500MW의 전력 소비를 필요로 하는데, 이는 원자력 발전소의 절반에 해당하는 양이다. 성능 효율성을 유지하기 위해서는 매 2.2년마다 에너지 효율성이 두 배로 증가해야 하며, 이는 현재의 52GFLOPS/W에서 2,140GFLOPS/W까지 도달해야 한다는 것을 의미한다. 이러한 목표를 달성하려면 아키텍처적 혁신뿐만 아니라 메모리 대역폭과 전력 관리 기술의 발전도 필수적이다. AMD는 이러한 과제를 해결하기 위해 3D와 2.5D 패키징 기술을 혼합한 설계를 유지하고 있다. XCD(Xilinx Compute Die)와 IOD(Input/Output Die)를 3D 패키징으로 융합하여, IOD는 2.5D 패키징으로 연결된다. 이 설계는 메모리 대역폭과 성능을 크게 향상시켰으며, HBM3E 메모리는 각 스택당 32MB의 캐시를 제공한다. 호스트 시스템은 PCIe 5.0 x16 인터페이스를 통해 연결되며, GPU들은 7개의 Infinity Fabric 링크를 통해 통신한다. AMD는 또한 다양한 네트워킹 방식을 지원하지만, Pollara Ultra Ethernet Consortium-capable NICs를 최적의 확장 솔루션으로 제시하며, Ultra Accelerator Link(UAL) 인터커넥트를 스케일 업 네트워킹에 활용한다. AMD는 이 새로운 설계를 통해 고객들이 단일 랙에 더 많은 성능을 집중시킬 수 있게 되어, 성능 대비 총 소유 비용(TCO)을 감소시키는 데 기여할 것으로 기대하고 있다. 이러한 발전은 AMD가 시장에서 경쟁력을 늘리는 데 중요한 역할을 하고 있으며, 특히 AI 추론 작업에서의 성능 향상은 업계에서 주목받고 있다. 그러나 동시에 전력 소비 증가라는 새로운 과제를 안고 있는 상태다. AMD는 이러한 문제를 해결하기 위해 지속적인 연구와 혁신을 추진할 계획이며, 미래의 초고성능 컴퓨팅 환경에서 필요한 메모리 대역폭과 에너지 효율성을 달성하기 위한 노력도 계속될 것이다. 전문가들은 AMD의 새로운 GPU가 엔비디아와의 경쟁에서 실질적인 성능 차이를 보일지에 대해 주목하고 있으며, AMD의 파트너 OEM사들과의 협력이 이러한 경쟁력을 강화하는 데 중요한 역할을 할 것으로 평가한다. 또한, 초고성능 컴퓨팅 시스템의 전력 소비 증가는 산업계 전반의 과제로 인식되고 있으며, 이에 대한 해결책 개발이 시급하다. AMD는 이 문제를 해결하기 위해 지속적으로 혁신적인 기술을 개발하고 있으며, 이를 통해 미래의 저타스케일 시스템도 실현 가능할 것으로 보인다.

Related Links