AMD, AI·HPC용 MI355X 가속기 공개…전력 소모 1400W
AMD가 ISC 2025에서 AI 및 고성능 컴퓨팅(HPC)용 새로운 액셀러레이터인 Instinct MI355X를 공개했습니다. 이 액셀러레이터는 전력 소모량이 증가했지만, AI 추론 성능에서 큰 향상을 보였습니다. AMD의 CTO인 마크 파페마스터가 직접 발표한 내용에 따르면, MI355X는 전력 소모량이 최대 1,400W에 달하며, 주로 직류 수냉식 쿨링을 위해 설계되었습니다. 그러나 일부 고객은 공기 냉각을 사용할 수 있을 것으로 예상됩니다. AMD의 새로운 AI 및 HPC 액셀러레이터 MI355X AMD의 Instinct MI350X 시리즈 액셀러레이터는 CDNA 4 아키텍처를 기반으로 합니다. 이 아키텍처는 FP4와 FP6 정밀도 포맷을 지원하며, AI 작업 부하에서 특히 중요한 역할을 합니다. AMD는 MI350X 프로세서를 주로 추론 용도로 위치시키고 있으며, 8개의 GPU로 확장되는 한계가 있어 NVIDIA의 Blackwell GPU와 비교해 경쟁력을 떨어뜨리는 요인이 되지만, Pegatron은 128-way MI350X 머신을 준비 중입니다. MI350X 시리즈에는 두 가지 모델이 포함되어 있습니다. 기본 MI350X 모듈은 공기 냉각을 위해 설계되었으며, 1,000W의 전력 소모량을 가집니다. 더 높은 성능을 제공하는 MI355X는 직류 수냉식 쿨링을 주로 지원하며, 최대 1,400W의 전력 소모량을 가지고 있습니다. 두 모델 모두 288GB의 HBM3E 메모리를 탑재하여 최대 8TB/s의 대역폭을 제공합니다. MI350X는 FP4/FP6 성능에서 최대 18.45 PFLOPS를, MI355X는 20.1 PFLOPS를 제공합니다. 이는 종이 상에서 NVIDIA의 B300 (Blackwell Ultra) GPU(최대 15 PF4 PFLOPS)를 앞지를 것으로 보입니다. 그러나 실제 응용 프로그램에서의 성능은 아직 확인되지 않았습니다. 전력 소모량 증가와 성능 향상 MI355X는 전력 소모량이 급증했지만, 성능에서도 큰 향상을 보였습니다. MI350X의 FP8 연산 처리량은 약 9.3 PFLOPS이며, 더 빠른 MI355X는 10.1 PFLOPS를 제공합니다. 이는 전작 MI325X(2.61/5.22 PF8 FLOPS)와 비교해 매우 큰 개선을 의미합니다. 또한, MI355X는 NVIDIA의 B300보다 0.1 FP8 PFLOPS 높은 성능을 자랑합니다. 슈퍼컴퓨터의 성능과 전력 소모량 파페마스터는 슈퍼컴퓨터의 성능이 지속적으로 증가하고 있으며, 이는 전력 소모량의 증가와 맞물려 있다고 말했습니다. 1990년부터 현재까지의 데이터를 살펴보면, 최고 슈퍼컴퓨터의 연산 성능은 대략 1.2년마다 두 배로 증가해 왔습니다. 초기에는 CPU만으로 성능이 증가했지만, 2005년경부터는 CPU와 GPU, 액셀러레이터를 혼합한 이종 아키텍처가 주도하게 되었습니다. 이제 'AI 가속화 시대'에서는 El Capitan과 Frontier 같은 시스템이 1 ExaFLOP를 넘어섰으며, 이는 성능의 지수적 성장 트렌드를 계속 유지하고 있음을 보여줍니다. 그러나 성능 증가는 메모리 대역폭과 전력 스케일링의 급박한 도전 과제를 초래했습니다. AMD의 자료에 따르면, GPU의 메모리 대역폭은 성능 당 대역폭 비율을 유지하기 위해 2년마다 2배 이상 증가해야 합니다. 이를 위해 GPU당 HBM 스택 수를 늘려야 하는데, 이는 더 크고 전력 소모가 많은 GPU와 모듈을 만들게 됩니다. 슈퍼컴퓨터용 액셀러레이터의 전력 소모량은 빠르게 증가하고 있습니다. 2023년 중반에 출시된 AMD의 Instinct MI300X는 최대 750W의 전력을 소비했으나, 이번에 공개될 MI355X는 최대 1,400W의 전력을 소모할 예정입니다. 파페마스터는 2026-2027년에는 1,600W 액셀러레이터, 그리고 이십 년대 후반에는 2,000W 프로세서가 등장할 것이라고 예상했습니다. 이에 비해 NVIDIA는 더욱 야심찬 계획을 갖고 있으며, 네 개의 리타클 크기의 컴퓨트 칩렛을 사용하는 Rubin Ultra GPU는 최대 3,600W의 전력을 소모할 것으로 예상됩니다. 미래의 슈퍼컴퓨터 슈퍼컴퓨터와 액셀러레이터는 전력 소모량이 증가함에도 불구하고, 성능 효율성이 빠르게 향상되고 있습니다. AMD의 자료에 따르면, 성능 효율성은 2010년 3.2 GFLOPS/W에서 exascale 시스템인 Frontier 출시 시점인 2022년경 52 GFLOPS/W로 증가했습니다. 앞으로 이 성능 스케일링 속도를 유지하기 위해서는 에너지 효율성을 2.2년마다 2배로 늘려야 합니다. 예를 들어, 1,000배 exaflop급 성능을 제공하는 zettascale 시스템은 2,140 GFLOPS/W의 효율성을 가지면서 약 500MW의 전력을 필요로 할 것입니다. 이는 현대의 원자력 발전소가 생산할 수 있는 전력의 절반에 해당합니다. 이런 효율성 증가 없이는 미래의 슈퍼컴퓨터는 기가와트 규모의 전력을 요구하게 되어, 운영 비용이 너무 비싸질 수 있습니다. AMD는 2030년대에 슈퍼컴퓨터의 성능을 극적으로 끌어올리기 위해서는 아키텍처적인 혁신뿐만 아니라, 산업 전반이 연산 능력에 걸맞는 메모리 대역폭을 제공해야 한다고 강조합니다. 또한, 슈퍼컴퓨터를 원자로로 구동하는 것이 2030년대에 현실적인 가능성이 될 수 있다고 언급했습니다. 업계 평가 및 회사 프로필 업계 인사들은 AMD의 새로운 액셀러레이터가 AI 추론 분야에서 중요한 발전을 이루었다고 평가합니다. 그러나 전력 소모량의 증가가 여전히 주요 문제점으로 지적되고 있으며, 이는 성능 향상과 함께 해결해야 할 과제입니다. AMD는 이러한 도전 과제를 극복하기 위해 계속해서 혁신적인 기술을 개발하고 있으며, 슈퍼컴퓨터의 미래를 위한 핵심 플레이어로 자리매김하고 있습니다.