HyperAI초신경
5일 전

ChipSeek-R1: 계층적 보상 주도 강화 학습을 통한 인간을 능가하는 RTL 생성

Zhirong Chen, Kaiyan Chang, Zhuolin Li, Xinyang He, Chujie Chen, Cangyuan Li, Mengdi Wang, Haobo Xu, et al
ChipSeek-R1: 계층적 보상 주도 강화 학습을 통한 인간을 능가하는 RTL 생성
초록

대형 언어 모델(LLMs)은 레지스터 전송 수준(RTL) 코드 생성의 자동화에 상당한 잠재력을 보여줍니다. 그러나 현재 접근 방식은 중요한 도전 과제에 직면해 있습니다: 기능적 정확성과 하드웨어 품질(전력, 성능, 면적 - PPA)을 동시에 최적화할 수 없습니다. 감독 학습을 기반으로 하는 방법들은 종종 기능적으로 올바른 코드를 생성하지만 PPA 최적화가 부족하며, 최적화 원칙을 학습하는 메커니즘이 부족합니다. 반면, 생성 후 PPA 지표를 개선하려는 후처리 기술들은 모델의 매개변수를 업데이트하지 않고 외부에서 작동하기 때문에 종종 비효율적이며, 이로 인해 모델의 내재적인 설계 능력을 향상시키지 못합니다. 이 간극을 메우기 위해, 우리는 ChipSeek-R1이라는 계층적 보상 주도 강화 학습 프레임워크를 소개합니다. ChipSeek-R1은 강화 학습 중 구문, 기능적 정확성(시뮬레이터로부터), PPA 지표(합성 도구로부터)에 대한 직접적인 피드백을 통합하는 계층적 보상 시스템을 사용합니다. 이를 통해 모델은 시도와 오류를 통해 복잡한 하드웨어 설계 균형점을 학습하여 기능적으로 올바르면서도 PPA 최적화된 RTL 코드를 생성할 수 있습니다. ChipSeek-R1을 표준 벤치마크(VerilogEval, RTLLM)에서 평가한 결과, 우리는 기능적 정확성 측면에서 최신 연구 결과를 달성했습니다. 특히 RTLLM 벤치마크에서 ChipSeek-R1은 원래 사람이 작성한 코드의 PPA 지표를 초월하는 27개의 RTL 설계를 생성했습니다. 우리의 연구 결과는 도구 체인 피드백을 LLM 훈련에 통합하는 효과성을 입증하고, 강화 학습이 사람이 초월하는 RTL 코드의 자동 생성을 가능하게 할 잠재력을 강조합니다. 우리는 익명의 GitHub에서 소스 코드를 오픈소스로 공개합니다.