ChipSeek-R1: ヒエラルキー報酬駆動強化学習を用いた人間を超えるRTLの生成

大規模言語モデル(LLMs)は、レジスタ転送レベル(RTL)コード生成の自動化に著しい潜在能力を示しています。しかし、現在のアプローチには重要な課題があります:機能的な正しさとハードウェア品質(電力、性能、面積 - PPA)を同時に最適化することができないことです。教師あり微調整に基づく方法は、機能的に正しいがPPAが劣るコードを生成することが多く、最適化原理を学習する仕組みが欠けています。一方で、生成後にPPA指標を改善しようとする後処理技術は、外部から動作しモデルのパラメータを更新しないため、効率的でなく、モデルの内在的な設計能力を向上させることができません。 このギャップを埋めるために、階層型報酬駆動強化学習フレームワークであるChipSeek-R1を導入します。ChipSeek-R1は大規模言語モデルを訓練して、機能的な正しさと最適なPPA指標を両立したRTLコードを生成することを目指しています。本フレームワークは階層型報酬システムを使用しており、強化学習中に構文、機能的な正しさ(シミュレータからのフィードバック)、およびPPA指標(合成ツールからのフィードバック)に関する直接的なフィードバックを取り入れます。これにより、モデルは試行錯誤を通じて複雑なハードウェア設計のトレードオフを学習し、機能的に正確かつPPA最適化されたRTLコードを生成することができます。 ChipSeek-R1を標準ベンチマーク(VerilogEval, RTLLM)で評価した結果、機能的な正しさにおいて最先端の成果を得ました。特にRTLLMベンチマークでは、ChipSeek-R1が27つのRTLデザインにおいて元の人間が書いたコードのPPA指標を超える結果を得ました。これらの研究結果は、ツールチェーンからのフィードバックをLLMの訓練に統合することの有効性を示し、強化学習が人間を超えるRTLコードの自動生成に向けた可能性を持つことを示唆しています。我々は匿名のGitHub上でソースコードを開源します。