4 days ago
ChipSeek-R1:通过分层奖励驱动的强化学习生成超越人类的RTL
Zhirong Chen, Kaiyan Chang, Zhuolin Li, Xinyang He, Chujie Chen, Cangyuan Li, Mengdi Wang, Haobo Xu, et al

摘要
大型语言模型(LLMs)在自动化寄存器传输级(RTL)代码生成方面展现出显著潜力。然而,当前的方法面临一个关键挑战:它们无法同时优化功能正确性和硬件质量(功耗、性能、面积 - PPA)。基于监督微调的方法通常生成功能正确的代码,但其PPA性能较差,缺乏学习优化原则的机制。相比之下,试图在生成后通过后处理技术改进PPA指标的方法往往效率低下,因为这些方法在外部运行而不更新LLM的参数,因此未能提升模型的内在设计能力。 为了解决这一问题,我们引入了ChipSeek-R1,这是一种分层奖励驱动的强化学习框架,用于训练LLMs生成既功能正确又PPA优化的RTL代码。ChipSeek-R1采用了一种分层奖励系统,在强化学习过程中结合了对语法、功能正确性(来自仿真器)和PPA指标(来自综合工具)的直接反馈。这使得模型能够通过试错学习复杂的硬件设计权衡,从而生成既功能正确又PPA优化的RTL代码。我们在标准基准测试(VerilogEval、RTLLM)上评估了ChipSeek-R1,并在功能正确性方面取得了最先进的结果。特别是在RTLLM基准测试中,ChipSeek-R1生成了27个超过原始人工编写代码PPA指标的RTL设计。我们的研究结果表明,将工具链反馈整合到LLM训练中是有效的,并突显了强化学习在实现超越人类水平的自动RTL代码生成方面的潜力。我们已将代码开源至匿名GitHub仓库。