구글이 TPU의 비밀 무기인 알파칩을 Nature에 게재했습니다! AI 설계칩 개발 역사 심층 분석

2020년에 구글은 획기적인 사전 인쇄 논문 "딥 강화 학습을 통한 칩 배치"를 발표하여 새로운 강화 학습 방법을 사용하여 설계된 칩 레이아웃을 세계 최초로 보여주었습니다.이 혁신을 통해 Google은 TPU의 칩 설계에 AI를 도입하여 인간 설계자의 수준을 뛰어넘는 칩 레이아웃을 달성할 수 있었습니다.
2022년까지 구글은 논문에 설명된 알고리즘 코드를 추가로 오픈 소스로 공개하여 전 세계 연구자들이 이 리소스를 사용하여 칩 블록을 사전 훈련할 수 있도록 했습니다.
오늘날 이 AI 기반 학습 방법은 TPU v5e, TPU v5p, Trillium을 포함한 여러 세대의 제품에서 테스트되었으며 Google에서 놀라운 성과를 거두었습니다. 더욱 놀라운 점은 Google DeepMind 팀이 최근 Nature에 이 방법에 대한 부록을 게시했다는 것입니다. 여기서 이 방법이 칩 설계 분야에 미치는 광범위한 영향에 대해 더 자세히 설명하고 있습니다. 동시에,구글은 또한 20개의 TPU 모듈을 기반으로 사전 훈련된 체크포인트를 오픈하고, 모델 가중치를 공유하고, 이를 AlphaChip이라고 명명했습니다.
AlphaChip의 등장은 칩 설계에 AI를 적용하는 것이 더욱 확대될 것임을 시사할 뿐만 아니라, "칩을 설계하는 칩"이라는 새로운 시대로 접어들고 있음을 알리는 신호이기도 합니다.
AlphaChip: Google DeepMind가 AI를 사용하여 칩 설계에 혁신을 일으키는 방법
Google DeepMind의 정점인 AlphaChip은 칩 설계의 혁명적 진전을 통해 글로벌 기술 커뮤니티의 주목을 받고 있습니다.
칩 설계는 현대 기술의 정점에 있는 분야입니다. 그 복잡성은 극히 얇은 전선을 통해 수많은 정밀 부품을 교묘하게 연결하는 데 있습니다. AlphaChip은 실제 엔지니어링 문제를 해결하는 데 적용된 최초의 강화 학습 기술 중 하나로, 몇 주 또는 몇 달간의 인력 노동이 필요 없이 단 몇 시간 만에 인간과 동등하거나 그보다 더 나은 칩 레이아웃 설계를 완료할 수 있습니다. 이 획기적인 발전은 우리의 상상력에 전통적인 한계를 넘어선 문을 열어주었습니다.
그렇다면 AlphaChip은 어떻게 이러한 업적을 달성하는 것일까요?
AlphaChip의 비밀은 칩 레이아웃 설계를 게임으로 처리하는 강화 학습 원리를 채택한 데 있습니다. AlphaChip은 빈 격자에서 시작하여 모든 회로 구성 요소가 제자리에 놓일 때까지 점차적으로 각 회로 구성 요소를 배치합니다. 이후 시스템은 레이아웃의 품질에 따라 상응하는 보상을 제공합니다.
더 중요한 점은, 구글이 혁신적으로 "에지 기반" 그래프 신경망을 제안했다는 것입니다.이를 통해 AlphaChip은 칩 구성 요소 간의 관계를 학습하고 이를 전체 칩 설계에 적용하여 모든 설계에서 자기 초월을 달성할 수 있습니다. AlphaGo와 마찬가지로 AlphaChip도 "게임"을 통해 학습하여 뛰어난 칩 레이아웃을 설계하는 기술을 습득할 수 있습니다.
TPU 레이아웃을 설계하는 구체적인 과정에서 AlphaChip은 먼저 칩 내부 및 칩 간 네트워크 모듈, 메모리 컨트롤러, 데이터 전송 버퍼를 포함한 이전 세대 칩의 다양한 모듈을 사전 학습합니다. 이러한 사전 훈련 단계를 통해 AlphaChip은 풍부한 경험을 얻게 됩니다. 이후 Google은 AlphaChip을 사용하여 현재 TPU 모듈에 대한 고품질 레이아웃을 생성했습니다.
기존 방식과는 달리 AlphaChip은 더 많은 칩 레이아웃 작업을 해결하여 지속적으로 최적화를 이루며, 인간 전문가는 연습을 통해 기술을 향상시킵니다. DeepMind의 공동 창립자이자 CEO인 Demis Hassabis가 말했듯이,Google은 AlphaChip을 중심으로 강력한 피드백 루프를 구축했습니다.
* 먼저, 고급 칩 설계 모델(AlphaChip)을 학습합니다.
* 둘째, AlphaChip을 활용하여 더 나은 AI 칩을 설계합니다.
* 그런 다음 이러한 AI 칩을 사용하여 더 나은 모델을 학습합니다.
* 마지막으로 이러한 모델을 사용하여 더 나은 칩을 설계합니다.

이러한 반복적인 프로세스를 통해 모델과 AI 칩의 동시 업그레이드가 가능해집니다. 데미스 하사비스는 "이것이 구글의 TPU 스택이 그렇게 좋은 성능을 보이는 이유 중 하나"라고 말했습니다.
AlphaChip은 인간 전문가에 비해 더 많은 모듈을 배치할 뿐만 아니라 배선 길이도 크게 줄였습니다.AlphaChip은 새로운 세대의 TPU를 출시할 때마다 더 나은 칩 레이아웃을 설계하여 더욱 완벽한 전체 평면도를 제공하고, 이를 통해 설계 주기를 단축하고 칩 성능을 향상시킵니다.

Google TPU의 10년 여정: ASIC 지속성에서 AI 설계 혁신까지
TPU 분야의 개척자이자 탐험가인 Google의 이 기술 분야에서의 개발 역사는 예리한 통찰력에 기반을 둔 것일 뿐만 아니라, 놀라운 용기를 보여줍니다.
우리 모두가 알다시피, 1980년대에는ASIC(Application Specific Integrated Circuit)은 높은 비용 효율성, 강력한 처리 능력, 빠른 속도가 특징입니다.이는 시장에서 폭넓은 호평을 받았습니다. 그러나 ASIC의 기능은 맞춤형 마스크 도구에 따라 결정되므로 고객은 비싼 선불 비반복 엔지니어링(NRE) 수수료를 지불해야 합니다.
이때에는,FPGA(Field Programmable Gate Array)는 초기 비용을 낮추고 디지털 로직을 사용자 정의하는 데 따른 위험을 줄이는 장점이 있습니다.이 차는 대중의 주목을 받았고, 성능 면에서 다른 모든 모델을 능가하지는 않지만 시장에서 독보적인 존재입니다.
당시 업계에서는 무어의 법칙이 FPGA 성능을 ASIC의 필요성을 넘어설 것으로 예상했습니다. 하지만 프로그래밍 가능한 "범용 칩"인 FPGA는 탐색적이고 소량 생산 제품에서 좋은 성능을 보이며 GPU보다 더 나은 속도, 전력 소비 또는 비용 지표를 달성할 수 있지만 "보편성과 최적성은 동시에 달성할 수 없다"는 규칙에서 벗어날 수는 없습니다. FPGA가 특수 아키텍처의 길을 열자, 더욱 특수화된 ASIC으로 자리를 내주었습니다.
21세기 들어 AI 기술 열풍은 점점 더 강해지고 있습니다. 머신러닝과 딥러닝 알고리즘은 계속해서 발전해 왔습니다. 업계에서는 고성능, 저전력의 전용 AI 컴퓨팅 칩에 대한 수요가 증가했지만, CPU, GPU 등은 많은 복잡한 작업을 처리하지 못하는 것으로 보입니다. 이러한 배경에서 구글은 2013년에 대담한 결정을 내렸습니다.ASIC은 TPU 인프라를 구축하고 TensorFlow와 JAX를 중심으로 개발하기 위해 선택되었습니다.
ASIC의 독자적인 연구 개발은 긴 주기, 큰 투자, 높은 진입점, 큰 리스크를 지닌 과정이라는 점을 주목할 필요가 있습니다. 잘못된 방향을 선택하면 막대한 경제적 손실로 이어질 수 있습니다. 그러나 구글은 더욱 비용 효율적이고 에너지 효율적인 머신 러닝 솔루션을 모색하기 위해 2012년 딥 러닝을 통해 이미지 인식에서 획기적인 성과를 거둔 직후인 2013년에 TPUv1을 개발하기 시작했고, 2015년에 1세대 TPU 칩(TPU v1)의 내부 출시를 발표했습니다.이는 AI를 위해 특별히 설계된 세계 최초의 가속기의 탄생을 의미합니다.
다행히도 TPU는 곧 눈에 띄는 시연 기회를 얻었습니다. 2016년 3월, AlphaGo Lee가 세계 바둑 챔피언 이세돌을 성공적으로 이겼습니다. AlphaGo 시리즈의 2세대 버전으로, Google Cloud에서 실행되며 계산에 50개의 TPU를 사용합니다.
하지만 TPU는 곧바로 업계에서 대규모로 성공적인 응용 프로그램을 이루지는 못했습니다. AlphaChip 칩 레이아웃 방식이 제안되기 전까지 TPU는 진정한 의미에서 새로운 개발 단계에 진입하지 못했습니다.

2020년에 구글은 "심층 강화 학습을 통한 칩 배치"라는 제목의 사전 인쇄 논문을 통해 AlphaChip의 기능을 시연했습니다.과거 경험으로부터 학습하고 다양한 넷리스트와 레이아웃에 대한 보상을 정확하게 예측하고 입력 넷리스트에 대한 풍부한 기능 임베딩을 생성하는 신경망 아키텍처를 설계하여 지속적으로 개선할 수 있습니다.
AlphaChip은 성능 최적화 조건을 게임의 승리 조건으로 간주하고 강화 학습 방법을 채택하여 지능형 에이전트를 훈련함으로써 칩 레이아웃 기능을 지속적으로 최적화하고 누적 보상을 극대화하는 것을 목표로 합니다. 그들은 10,000개의 게임을 출시하여 AI가 10,000개의 칩에서 레이아웃과 라우팅을 연습하고 데이터를 수집하는 동안 지속적으로 학습하고 최적화할 수 있도록 했습니다.
궁극적으로 그들은 AI가 면적, 전력, 전선 길이 측면에서 인간 엔지니어보다 더 나은 또는 비슷한 수준의 레이아웃 성과를 보였으며, 설계 기준을 훨씬 짧은 시간 안에 충족한다는 것을 발견했습니다. 결과는 다음과 같습니다AlphaChip은 6시간 이내에 수동 성능과 동등하거나 그 이상의 성능을 제공하는 최신 가속기 넷리스트에 대한 레이아웃을 생성할 수 있습니다.동일한 조건 하에서 기존의 인간 전문가가 동일한 작업을 완료하는 데 몇 주가 걸릴 수 있습니다.
AlphaChip의 도움으로 Google의 TPU 의존도가 높아지고 있습니다. 2023년 12월Google은 Cloud TPU v5p 칩을 광범위하게 사용하여 학습하는 멀티모달 범용 대형 모델 Gemini의 세 가지 버전을 출시했습니다. 2024년 5월Google은 6세대 TPU 칩인 Trillium을 출시했습니다. 이 칩은 단일 고대역폭, 저지연 Pod에서 최대 256개의 TPU 클러스터로 확장할 수 있습니다. 이전 세대와 비교했을 때, Trillium은 모델 학습에 적응하는 능력이 더욱 강력해졌습니다.
동시에 TPU 칩은 점차 구글을 넘어서서 시장에서 더 폭넓은 인지도를 얻었습니다. 2024년 7월 30일Apple이 발표한 연구 논문에서, 해당 회사는 Apple Intelligence 생태계에서 AFM 인공지능 모델을 훈련할 때 두 가지 유형의 Google Tensor Processing Unit(TPU) 클라우드 클러스터를 선택했다고 주장했습니다. 다른 데이터에 따르면 60% 이상의 생성 AI 스타트업과 거의 90%의 생성 AI 유니콘이 Google Cloud의 AI 인프라와 Cloud TPU 서비스를 사용하고 있습니다.
모든 징후는 10년간의 노력 끝에 TPU가 잠복기를 벗어나 뛰어난 하드웨어 성능으로 구글의 AI 시대에 기여하기 시작했음을 보여줍니다.AlphaChip에 포함된 "AI가 AI 칩을 설계한다"는 경로는 칩 설계 분야에 새로운 지평을 열었습니다.
AI는 칩 설계에 혁명을 일으킨다: Google AlphaChip부터 전체 프로세스 자동화 탐색까지
AlphaChip은 AI 설계 칩 분야에서 독보적인 존재이지만, 유일한 기업은 아닙니다. AI 기술의 촉수는 칩 검증 및 테스트와 같은 많은 주요 링크로 널리 확장되었습니다.
칩 설계의 핵심 과제는 칩의 전력 소비(Power), 성능(Performance), 면적(Area)을 최적화하는 것입니다. 이 세 가지 핵심 지표를 통칭하여 PPA라고 합니다. 이 과제는 디자인 공간 탐색이라고도 불립니다. 전통적으로 이 작업은 EDA 툴을 통해 완료되었지만, 최적의 성능을 달성하기 위해 칩 엔지니어는 지속적으로 수동으로 조정을 한 다음 최적화를 위해 EDA 툴에 다시 넘겨야 하며, 이러한 주기를 반복해야 합니다. 이 과정은 집에 가구를 배치하는 것과 같습니다. 끊임없이 공간 활용도를 극대화하고 동선을 최적화하려고 노력하지만, 매번 조정하는 것은 가구를 옮겨서 다시 배치하는 것과 같아서 엄청나게 시간이 많이 걸리고 노동 집약적입니다.
이 문제를 해결하기 위해서는Synopsys는 2020년에 DSO.ai를 출시했습니다.이는 AI와 EDA를 통합한 업계 최초의 칩 설계 솔루션입니다. DSO.ai는 강화 학습 기술을 사용하여 AI를 통해 설계 공간을 자동으로 검색하여 인간의 개입 없이 최적의 균형점을 찾습니다. 이 도구는 여러 칩 거대 기업에서 사용되었습니다.
예를 들어, Microsoft는 DSO.ai를 사용한 후 성능을 유지하면서 칩 모듈의 전력 소비를 10%-15% 줄였습니다. STMicroelectronics는 PPA 탐사 효율성을 3배 이상 높였습니다. 메모리 칩 대기업 SK하이닉스는 칩 면적을 5% 줄였습니다. Synopsys의 데이터에 따르면 DSO.ai는 300건 이상의 상용 테이프아웃을 성공적으로 지원했으며, 이는 AI가 실제 칩 설계 및 생산에서 중요한 역할을 한다는 것을 보여줍니다.
AI 지원 칩 검증과 관련하여 Synopsys가 발표한 기술 보고서에 따르면, 검증 프로세스는 전체 칩 개발 주기의 최대 70%가 소요된다고 지적했습니다. 칩 테이프아웃 비용은 수억 달러에 달하며, 최신 칩의 복잡성은 계속 증가하고 있으므로 검증의 어려움은 상상할 수 있습니다. 이를 위해,Synopsys는 VSO.ai 도구를 출시했습니다.AI를 사용하여 검증 공간을 최적화하고 적용 범위의 융합을 가속화합니다.
VSO.ai는 기존 코드 커버리지를 보완하기 위해 다양한 커버리지 유형을 추론할 수 있으며, AI는 검증 경험을 통해 학습하여 커버리지 목표를 지속적으로 최적화할 수도 있습니다. 또한 Synopsys는 파운드리에서 제조된 불량 칩을 걸러내는 데 도움이 되는 TSO.ai 도구도 출시했습니다.
칩 설계 분야에 AI가 깊이 관여하면서 대담한 아이디어가 떠올랐습니다. AI를 사용하여 완전한 칩을 설계할 수 있을까요? 사실, 엔비디아는 이미 이 분야에서 시도를 했습니다. 심층 강화 학습 에이전트를 통한 회로 설계,엔비디아의 H100에는 AI가 설계한 회로가 약 13,000개 있습니다. 중국과학원 컴퓨팅기술연구소도 AI를 활용해 5시간 만에 '인라이튼먼트 1호'라는 RISC-V 프로세서 칩을 개발했습니다.400만 개의 논리 게이트를 갖추고 있어 성능은 인텔 80486과 비슷합니다.
전반적으로 AI가 완전한 칩을 설계하는 능력은 아직 제한적이지만, 이는 의심할 여지 없이 미래 칩 개발을 위한 중요한 기회입니다. 기술의 지속적인 발전에 따라 칩 설계 분야에서 AI의 잠재력은 더욱 탐구되고 활용될 것이며, 궁극적으로 전체 칩 설계 공정을 바꿀 것입니다.