5日前

ChipSeek-R1: ヒエラルキー報酬駆動強化学習を用いた人間を超えるRTLの生成

Zhirong Chen, Kaiyan Chang, Zhuolin Li, Xinyang He, Chujie Chen, Cangyuan Li, Mengdi Wang, Haobo Xu, et al

要約

大規模言語モデル（LLMs）は、レジスタ転送レベル（RTL）コード生成の自動化に著しい潜在能力を示しています。しかし、現在のアプローチには重要な課題があります：機能的な正しさとハードウェア品質（電力、性能、面積 - PPA）を同時に最適化することができないことです。教師あり微調整に基づく方法は、機能的に正しいがPPAが劣るコードを生成することが多く、最適化原理を学習する仕組みが欠けています。一方で、生成後にPPA指標を改善しようとする後処理技術は、外部から動作しモデルのパラメータを更新しないため、効率的でなく、モデルの内在的な設計能力を向上させることができません。このギャップを埋めるために、階層型報酬駆動強化学習フレームワークであるChipSeek-R1を導入します。ChipSeek-R1は大規模言語モデルを訓練して、機能的な正しさと最適なPPA指標を両立したRTLコードを生成することを目指しています。本フレームワークは階層型報酬システムを使用しており、強化学習中に構文、機能的な正しさ（シミュレータからのフィードバック）、およびPPA指標（合成ツールからのフィードバック）に関する直接的なフィードバックを取り入れます。これにより、モデルは試行錯誤を通じて複雑なハードウェア設計のトレードオフを学習し、機能的に正確かつPPA最適化されたRTLコードを生成することができます。 ChipSeek-R1を標準ベンチマーク（VerilogEval, RTLLM）で評価した結果、機能的な正しさにおいて最先端の成果を得ました。特にRTLLMベンチマークでは、ChipSeek-R1が27つのRTLデザインにおいて元の人間が書いたコードのPPA指標を超える結果を得ました。これらの研究結果は、ツールチェーンからのフィードバックをLLMの訓練に統合することの有効性を示し、強化学習が人間を超えるRTLコードの自動生成に向けた可能性を持つことを示唆しています。我々は匿名のGitHub上でソースコードを開源します。