HyperAI초신경
Back to Headlines

와퍼 스케일 가속기, AI의 미래와 환경 효율성 개선

한 달 전

워фер 스케일 가속기, 인공지능의 미래를 재정의하다 UCRiverside 공대 연구팀이 저널 'Device'에 게재한 기술 리뷰 논문에서 새로운 유형의 컴퓨터 칩, 워퍼 스케일 가속기가 인공지능(AI)의 미래를 바꿔놓을 수 있으며, 더욱 환경 친화적일 수 있다는 가능성을 탐구했다. 워퍼 스케일 가속기는 Cerebras사가 제조한 것처럼 식판 크기의 실리콘 워퍼 위에 만들어진 대형 칩이다. 이는 전통적인 그래픽 처리 장치(GPU)와는 달리 우표 크기보다도 작은 칩으로 이루어져 있다. 이 논문은 워퍼 스케일 프로세서가 훨씬 더 많은 컴퓨팅 파워와 뛰어난 에너지 효율성을 제공할 수 있다는 결론을 내렸다. 이러한 특성은 AI 모델이 점점 더 크고 복잡해짐에 따라 필수적이다. "워퍼 스케일 기술은 큰 도약입니다," UCRiverside 공대 전기 및 컴퓨터 공학과 교수인 미히리 오즈칸(Mihri Ozkan)이 말했다. "수 조 개의 매개변수를 가진 AI 모델이 전통적인 시스템보다 더 빠르고 효율적으로 작동하도록 합니다." 논문의 공동저자들은 UCRiverside 대학원생인 릴리 폼파(Lily Pompa), 무드 샤이한 빈 이크발(Md Shaihan Bin Iqbal), 유천(Yiu Chan), 다니엘 모라레스(Daniel Morales), 콜린 첸(Zixun Chen), 헨딩 왕(Handing Wang), 루샤 고우(Lusha Gao), 그리고 산드라 에르난데스 곤살레스(Sandra Hernandez Gonzalez)다. GPU는 이미지, 언어, 데이터 스트림 등을 병렬로 처리하는 능력 때문에 AI 개발에 필수적인 도구가 되었다. 수천 개의 병렬 연산을 동시에 수행함으로써 자율주행차량은 충돌을 피하기 위해 주변 세계를 해석하고, 이미지는 텍스트로부터 생성되며, ChatGPT는 특정 재료 목록에서 여러 가지 메뉴를 제안할 수 있다. 하지만 AI 모델의 복잡성이 증가하면서 고급 GPU마저 성능과 에너지 한계를 맞이하고 있다. "AI 컴퓨팅은 속도뿐만 아니라, 방대한 양의 데이터를 이동시키면서 과열이나 과도한 전기 소비를 피할 수 있는 시스템 설계가 중요합니다," 오즈칸 교수는 설명했다. UCR 분석은 현재 표준 GPU 칩과 Cerebras의 워퍼 스케일 엔진 3(WSE-3) 같은 워퍼 스케일 시스템을 비교한다. WSE-3은 단일 워퍼에 4조 개의 트랜지스터와 90만 개의 AI 전용 코어를 포함하며, Tesla의 Dojo D1은 1.25조 개의 트랜지스터와 약 9,000개의 코어를 가진다. 이러한 시스템은 데이터가 더 작은 칩들 사이를 이동할 때 발생하는 성능 병목 현상을 제거하기 위해 설계되었다. "모든 것을 하나의 워퍼에 유지하면 칩 간 통신으로 인한 지연과 전력 손실을 피할 수 있습니다," 오즈칸 교수는 강조했다. 칩-온-워퍼-온-서브스트레이트 패키징 같은 기술은 워퍼 스케일 설계를 더 컴팩트하고 확장하기 쉽게 만들 수 있으며, 계산 밀도를 최대 40배까지 높일 수 있는 잠재력을 가지고 있다. 워퍼 스케일 가속기는 뛰어난 장점을 제공하지만 모든 용도에 적합하지는 않다. 워퍼 스케일 프로세서는 제조 비용이 높고, 소규모 작업에는 유연성이 부족하다. 전통적인 GPU는 모듈성과 저렴한 가격으로 여전히 많은 환경에서 필수적이다. "단일 칩 GPU는 사라지지 않을 것입니다," 오즈칸 교수는 말했다. "하지만 가장 발전된 AI 모델을 훈련시키기 위해서는 워퍼 스케일 가속기가 필수적입니다." 또한 논문에서는 AI에서 점점 더 중요한 문제인 지속 가능성에 대해 다루었다. GPU로 구동되는 데이터 센터는 엄청난 양의 전기와 물을 사용하여 냉각해야 한다. 워퍼 스케일 프로세서는 내부 데이터 트래픽을 줄여 각 작업당 훨씬 적은 에너지를 소비한다. 예를 들어, Cerebras의 WSE-3은 최대 125쿼드리ilion 연산을 초당 수행하면서 비교 가능한 GPU 시스템이 요구하는 전력의 일부만 사용한다. 그 아키텍처는 데이터를 로컬에 유지하여 에너지 소비와 열 발생을 줄인다. NVIDIA의 H100 GPU는 현대 데이터 센터의 핵심으로, 유연성과 높은 처리량을 제공하지만 더 많은 에너지 비용이 들고, 광범위한 냉각 인프라가 필요하다. 1초당 와트당 약 7.9조 연산의 효율율을 가지고 있으며, 종종 많은 양의 물을 사용하는 냉각 시스템이 필요하다. "GPU를 혼잡한 고속도로로 생각하면 됩니다—효율적이지만, 교통 정체는 에너지를 낭비합니다," 오즈칸 교수는 설명했다. "워퍼 스케일 엔진은 단선 철도와 같아, 직접적이고 효율적이며 덜 오염됩니다." Cerebras는 WSE-3 시스템에서 추론 작업 부하가 동일한 GPU 기반 클라우드 설정의 6분의 1 전력을 사용한다고 보고한다. 이 기술은 이미 기후 시뮬레이션, 지속 가능한 공학, 탄소 포집 모델링 등에 사용되고 있다. "워퍼 스케일 시스템이 지속 가능성 연구 자체를 가속화하는 것을 보고 있습니다," 오즈칸 교수는 말했다. "이는 컴퓨팅과 지구 모두에게 승리입니다." 그러나 열은 여전히 과제다. 열 설계 전력이 10,000와트에 달하는 워퍼 스케일 칩은 고급 냉각이 필요하다. Cerebras는 칩 패키지에 내장된 글리콜 기반 루프를 사용하며, Tesla는 칩 표면 전체에 액체를 균일하게 분배하는 냉각 시스템을 이용한다. 저자들은 또한 시스템의 총 탄소 발자국의 최대 86%가 제조 및 공급망에서 비롯된다는 점을 강조한다. 전력 사용뿐만 아니라 재활용 가능한 재료와 저배출 합금, 전체 수명 주기 설계 실천을 지지한다. "효율성은 공장에서 시작됩니다," 오즈칸 교수는 말했다. "컴퓨팅의 영향을 진정으로 줄이려면 워퍼부터 폐기물까지 전체 과정을 재고해야 합니다. 이 리뷰는 깊은 학제간 협업의 결과입니다. 우리는 연구자, 엔지니어, 정책 입안자들이 AI 하드웨어의 미래를 탐색하는 데 있어 이 리뷰가 로드맵 역할을 할 수 있기를 바랍니다." 이 연구는 워퍼 스케일 가속기가 AI 컴퓨팅의 효율성과 환경 친화성을 크게 향상시킬 수 있음을 강조하면서, 관련 산업에서의 긍정적인 평가를 받고 있다. Cerebras와 Tesla는 이 기술을 적극적으로 개발하고 있으며, 앞으로 AI 모델의 성능 향상과 지속 가능한 컴퓨팅을 위한 핵심 기술로 자리매김할 것으로 기대된다.

Related Links