HyperAI초신경

몸을 웅크리고? 엔비디아, 칩 설계에 특화된 대형 모델 ChipNeMo 출시

特色图像

엔비디아는 엔지니어가 칩 설계와 관련된 작업을 완료하는 데 도움이 되는, 자사의 내부 데이터를 기반으로 학습된 맞춤형 대규모 언어 모델인 ChipNeMo를 출시했습니다.

이곳에서 황런쉰은 꽃무늬 조끼를 입고 손수건을 든 채 연례회의에 참석했습니다. 저기,샘 알트만  새로운 AI 칩 회사를 만드는 데 수십억 달러의 자금이 모금되고 있습니다.

자만심과 야망의 대조는 현재 AI 칩 분야를 실제로 묘사한 것입니다. 컴퓨팅 능력이 가장 중요한 시대에, 엔비디아는 거의 모든 기업을 압도하고 있습니다. 그래서 AI 칩 스타트업이 비가 온 뒤 버섯처럼 우후죽순 생겨나고 있으며, 심지어 일부는 엔비디아와 경쟁하고 엔비디아를 대체한다고 주장하기도 합니다. 동시에 마이크로소프트, 구글 등 주요 기업들도 자사 칩을 더욱 부지런히 개발하기 시작했습니다.

실제로 지능화 시대가 도래한 이래로 칩은 많은 기술 거대 기업의 '아킬레스건'이 되었으며, 반도체 산업의 높은 문턱 때문에 이 기술적 포위 공격을 쉽게 극복하기 어렵습니다. 화웨이가 이미 "설명한" 생산 공정 외에도 반도체 설계 역시 매우 어렵습니다. 특히 전자 칩이 무어의 법칙의 한계에 접근하고 컴퓨팅 성능 요구 사항이 계속 증가함에 따라 고급 프로세스에서 더 높은 성능을 달성하는 방법이 AI 칩 설계의 중요한 과제가 되었습니다.

144개의 SM을 갖춘 GH100 전체 GPU

위 그림에서 볼 수 있듯이, 현미경으로 살펴보면 NVIDIA H100 Tensor Core GPU와 같은 고급 칩은 수백억 개의 트랜지스터로 이루어진 주의 깊게 계획된 도시처럼 보이며, 이 트랜지스터들은 인간 머리카락보다 10,000배 얇은 "거리"로 연결되어 있습니다. 도시 전체를 건설하려면 여러 엔지니어링 팀의 협업이 2년 이상 필요합니다.

이들 중에는 다양한 부서가 업무를 분담하고 서로 협력하는 부서도 있다. 일부는 칩의 전반적인 아키텍처를 정의하고, 일부는 다양한 초소형 회로의 설계와 레이아웃을 담당하고, 일부는 테스트를 담당합니다. 각 작업에는 전문적인 방법, 소프트웨어 프로그램, 컴퓨터 언어가 필요한데, 이는 복잡성을 보여줍니다. 이것이 바로 칩 제조업체의 기술적 우위입니다.

흥미로운 점은 가장 강력한 AI 칩으로 대형 제조업체의 지갑을 비워 온 엔비디아가 이제 AI를 사용하여 더 "쉽게" 수익을 창출하는 방법을 생각하기 시작했다는 것입니다. 요전,NVIDIA는 자사의 내부 데이터를 기반으로 학습된 맞춤형 대규모 언어 모델인 ChipNeMo를 출시했습니다.이 기능은 엔지니어가 칩 설계와 관련된 작업을 완료하는 데 도움이 되며 현재는 내부적으로만 사용됩니다.

이 결과는 arXiv에 포함되었습니다. 논문 주소:
https://arxiv.org/abs/2311.00176
공식 계정을 팔로우하고 "ChipNeMo"라고 답글을 남겨 논문을 다운로드하세요.

도메인 적응 기술 기반 칩 설계를 위한 LLM 사용자 정의

NVIDIA 연구진은 기존 LLM을 직접 배포하지 않고 대신 도메인 적응 기술을 기반으로 하는 NVIDIA NeMo를 사용하여 기본 모델(70억 개의 매개변수가 있는 LLaMA2, 130억 개의 매개변수, 700억 개의 매개변수가 있는 LLaMA2)을 사용자 지정했습니다.
참고: NVIDIA NeMo는 학습 및 추론 프레임워크, 가드레일 툴킷, 데이터 관리 도구, 사전 학습된 모델을 포함하여 생성적 AI 모델의 유연한 구축, 사용자 정의 및 배포를 허용하는 종단 간 클라우드 기반 프레임워크입니다.

ChipNeMo는 다음을 포함하여 다양한 도메인 적응 기술을 사용하여 LLM을 칩 설계 도메인에 적용합니다.
* 칩 설계 데이터를 위한 맞춤형 토크나이저 * 대량의 도메인 데이터를 사용한 도메인 적응형 지속적 사전 학습 * 도메인별 지침을 사용한 감독 미세 조정 * 미세 조정된 검색 모델 사용 * 검색 증강 생성(RAG)

연구진은 엔지니어링 지원 챗봇, EDA 스크립트 생성, 오류 요약 및 분석이라는 세 가지 특정 애플리케이션을 사용하여 ChipNeMo에 대한 현장 평가를 수행했습니다.

ChipNeMo 훈련 과정

이 중 도메인별 단어 분할기는 규칙을 사용자 정의하여 특정 용어의 토큰화 효율성을 개선할 수 있습니다. 연구진은 ChipNeMo의 사전 훈련된 토크나이저를 연구의 칩 설계 데이터 세트에 맞춰 조정하여 도메인별 용어에 대해서만 새로운 태그를 추가했습니다.

도메인 적응형 사전 학습(DAPT) 동안 연구자들은 NVIDIA의 내부 칩 설계 데이터를 공개 데이터 세트와 결합하고 이를 수집, 정리 및 필터링했습니다.내부 데이터 교육 코퍼스에는 총 231억 개의 토큰이 있습니다.설계, 검증, 인프라 및 관련 내부 문서를 다룹니다.

도메인별 지침으로 감독 미세 조정을 수행할 때(SFT), 연구진은 공개된 일반 채팅 명령 데이터 세트를 사용하여 여러 라운드의 채팅을 수행한 다음, 소량의 도메인별 명령 데이터 세트와 결합하여 ChipNeMo 기본 모델에서 SFT를 수행하여 ChipNeMo 채팅 모델을 생성했습니다.

또한 연구자들은 테바트론  이 프레임워크는 3,000개의 도메인별 자동 생성 샘플을 생성하고 e5 소규모 비지도 모델을 미세 조정하여 이 연구의 도메인 적응 검색 모델을 생성합니다.

ChatBot의 일반적인 "환각" 문제를 해결하기 위해,연구자들은 도메인별 질문에 대한 답변의 질을 개선하기 위해 검색 증강 생성(RAG)을 채택했습니다.

구체적으로, RAG는 데이터베이스에서 관련 구절을 검색하여 질문과 함께 프롬프트에 포함시켜 LLM이 사실에 기반한 더욱 정확한 답변을 생성할 수 있도록 합니다. 동시에 연구진은 적절한 양의 도메인별 훈련 데이터를 사용하여 비지도 사전 훈련된 고밀도 검색 모델을 미세 조정하면 검색 정확도를 크게 향상시킬 수 있음을 발견했습니다.

RAG 구현 프로세스


또한, 도메인 적응 기술은 대규모 언어 모델을 칩 설계 분야에 더욱 적합하게 만드는 것 외에도 모델 매개변수를 최대 5배까지 줄여 추론 비용을 줄일 수 있습니다.

언급할 가치가 있는 것은 다음과 같습니다.모든 모델은 128개의 A100 GPU를 사용하여 훈련되었습니다.연구자들은 ChipNeMo에 대한 도메인 적응형 사전 학습 비용을 아래 표에 나타난 바와 같이 추산했습니다. 그 중 DAPT는 기본 모델을 처음부터 사전 학습하는 총 비용의 1.5% 미만을 차지합니다.

130억 개의 매개변수를 갖춘 맞춤형 모델이 LLaMA2를 능가합니다.

연구진은 엔지니어링 어시스턴트 챗봇, EDA 스크립트 생성, 버그 요약 및 분석의 세 가지 칩 설계 애플리케이션에서 ChipNeMo의 실제 성능을 모니터링하고 평가했습니다.

첫 번째,엔지니어링 어시스턴트 챗봇은 칩 설계 엔지니어가 아키텍처, 설계, 검증 등에 대한 질문에 답할 수 있도록 돕고, 잘못된 가정에 기반한 코드를 작성하거나 익숙하지 않은 코드를 디버깅하는 것을 방지하여 생산성을 향상시킵니다. 또한, 챗봇은 엔지니어가 업무 효율성을 개선하는 데 도움이 되도록 내부 설계 문서, 코드, 설계에 대한 기타 기록된 데이터, 기술적 커뮤니케이션 추적(이메일, 회사 인스턴트 메시징 등)에서 관련 지식을 추출할 수도 있습니다.

엔지니어링 지원 챗봇 예시

둘째,EDA 스크립팅은 산업용 칩 설계 프로세스의 중요한 부분입니다. 과거에는 엔지니어가 내부 스크립트 라이브러리를 배우고, 도구 설명서를 참조하고, 스크립트를 디버깅해야 했는데, 이는 많은 시간이 소요되었습니다. 따라서 연구자들은 자연어 작업 설명에서 Tool1(Python)과 Tool2(TCL)를 기반으로 두 가지 유형의 스크립트를 생성했습니다. 엔지니어는 동일한 인터페이스에서 모델을 쿼리하고 생성된 코드를 실행할 수 있으며, 실행 가능한 스크립트를 얻으려면 얼마나 많은 수정이 필요한지도 확인할 수 있습니다.

EDA 도구와 LLM 스크립트 생성기 통합
EDA 스크립트 생성기 예제

제삼,버그 요약 및 분석을 위해 연구진은 NVIDIA의 내부 버그 데이터베이스인 NVBugs를 사용했고, 도메인별 SFT 데이터 세트도 구축했습니다.

버그 요약 및 분석 예

연구진은 칩 설계 지식, EDA 스크립트, 버그 분석, 회로 설계, MMLU(Mean Multi-Language Understanding)를 기반으로 ChipNeMo의 성능에 대한 비교 평가를 실시했습니다.

결과는 다음과 같습니다ChipNeMo의 성능은 기본 모델의 매개변수 크기에 따라 향상되며, ChipNeMo 도메인 적응형 사전 학습은 기본 모델에 비해 상당한 성능 향상을 제공합니다. 동시에 최적의 ChipNeMo 모델은 모든 벤치마크에서 GPT-3.5보다 우수한 성능을 보이며, 설계 지식 및 버그 벤치마크에서는 GPT-4보다 우수한 성능을 보입니다.

또한 칩 설계 작업에서는매개변수가 130억 개에 불과한 맞춤형 ChipNeMo 모델은 더 큰 범용 대형 언어 모델(예: 매개변수가 700억 개인 LLaMA2)의 성능과 동일하거나 더 뛰어납니다.

대형 모델을 사용한 칩 설계는 새로운 것이 아닙니다.

현재 ChipNeMo는 내부적으로만 사용 가능하며, 학습을 위해 Nvidia의 내부 데이터를 사용하기 때문에 향후 오픈 소스로 공개될 가능성은 낮습니다. 그럼에도 불구하고, 그래픽 카드 거대 기업인 엔비디아가 대규모 언어 모델의 도움을 받아 워크플로를 최적화하려는 움직임은 여전히 업계에 큰 영감을 주고 있습니다.

한편으로는,칩 설계의 높은 문턱은 기술적 장벽뿐만 아니라 경험과 비용에도 반영됩니다. 설계부터 구현, 그리고 생산까지의 모든 단계가 업계 경쟁에서 '추월 지점'이 될 수 있습니다. 대규모 모델을 추가하면 늦게 시작해서 경험이 부족한 일부 스타트업도 더 짧은 기간 안에 "다른 사람의 강점으로부터 배우기"가 가능하며, 이는 경험이 풍부한 엔지니어를 직접 고용하는 것과도 같습니다. 하지만 이를 위해서는 더 많은 오픈 소스 데이터와 모델 지원이 필요합니다.

반면에,대규모 모델이 챗봇 형태로 세상을 놀라게 하는 동안, 많은 회사는 자사의 산업 특성과 비즈니스 속성에 더 부합하는 오픈 소스 모델을 기반으로 대규모 언어 모델을 개발하고자 합니다. 하지만 대부분은 높은 훈련비용을 해결하기 어려워서 물러났다. 동시에 훈련 데이터의 보안도 고려해야 합니다. 이는 NVIDIA에서도 확인되었습니다. ChipNeMo를 훈련하는 데 사용되는 128개의 A100 GPU를 모든 회사에서 쉽게 구할 수 있는 것은 아닙니다.

ChipNeMo가 칩 분야에서 대형 모델을 사용한 것은 처음이 아니라는 점은 주목할 만합니다.

2023년 5월 초부터뉴욕대학교 탠던 공과대학의 연구자들은 인공지능과 "대화"하여 마이크로프로세서 칩을 설계하는 데 처음으로 성공했습니다.

논문 링크:
https://arxiv.org/abs/2305.13243
공식 계정을 팔로우하고 "Chip-Chat"에 답글을 남겨 논문을 다운로드하세요.

뉴욕대학교의 해먼드 피어스 교수는 인터뷰에서 "저는 칩 설계 전문가가 전혀 아닙니다"라고 말했습니다. "제가 직접 디자인한 첫 번째 칩이에요. 그래서 이 제품이 정말 인상적인 것 같아요."

구체적으로, 연구진은 GPT-4를 사용하여 124번의 대화를 통해 8비트 누적기 마이크로프로세서를 설계하는 데 성공했으며, 이는 Skywater 130nm 셔틀을 통해 제조되었습니다.

연구 결과가 발표된 다음 날,중국과학원 컴퓨팅기술연구소는 arXiv에 ChipGPT를 게재했습니다.이에 대한 토론이 다시 격렬하게 벌어졌습니다. 연구진은 ChipGPT가 자연어 칩 사양을 사용하여 논리 설계를 자동으로 생성하는 가능성을 탐색하고, 기존 LLM을 활용하여 전통적으로 높은 수준의 전문성과 수작업이 필요한 하드웨어 프런트엔드 설계 비용을 절감하려는 시도라고 밝혔습니다.

서류 주소:
https://arxiv.org/abs/2305.14019

연구 결론은 다음과 같습니다.ChipChat은 기존의 애자일 방법과 비교했을 때 코드 양을 5.32~9.25배 줄일 수 있습니다. 최적화된 영역 모드에서 ChipGPT의 영역 감소는 최대 47%에 도달할 수 있으며, 이는 원래 ChatGPT 모델보다 더 큽니다.

게다가 AI 기반 칩 설계 최적화는 새로운 개념이 아닙니다. 엔비디아 외에도 구글 등 주요 기업도 계획을 세웠습니다. 2021년에 Google 팀은 "빠른 칩 설계를 위한 그래프 배치 방법론"이라는 제목의 논문을 발표하여 칩 레이아웃 계획을 위한 심층 강화 학습 솔루션을 소개했습니다. 엔비디아는 2022년에 심층 강화 학습을 기반으로 한 회로 설계 방법인 PrefixRL을 출시했습니다.

하지만 ChipNeMo는 많은 개발을 거쳤고 맞춤형 모델이기 때문에 애플리케이션 적합성과 효율성 측면에서 더 많은 장점을 가질 수밖에 없습니다. AI 칩 분야에서 내부 경쟁이 치열한 이 시대에, 단연 '경쟁의 왕'이라 할 수 있는 엔비디아는 여전히 AI를 활용해 효율성을 개선하는 방안을 고민하고 있다. 아마도 추종자들의 압박도 느끼고 있는 걸까?

참고문헌:
https://blogs.nvidia.cn/2023/10/31/llm-semiconductors-chip-nemo
https://mp.weixin.qq.com/s/cRa-qAUTB2czlUcGb4YiDw
https://mp.weixin.qq.com/s/54BCR1wMoncvRYfaccNk3g