HyperAIHyperAI

Command Palette

Search for a command to run...

ChipSeek-R1: ヒエラルキー報酬駆動強化学習を用いた人間を超えるRTLの生成

Zhirong Chen Kaiyan Chang Zhuolin Li Xinyang He Chujie Chen Cangyuan Li Mengdi Wang Haobo Xu et al

概要

大規模言語モデル(LLMs)は、レジスタ転送レベル(RTL)コード生成の自動化に著しい潜在能力を示しています。しかし、現在のアプローチには重要な課題があります:機能的な正しさとハードウェア品質(電力、性能、面積 - PPA)を同時に最適化することができないことです。教師あり微調整に基づく方法は、機能的に正しいがPPAが劣るコードを生成することが多く、最適化原理を学習する仕組みが欠けています。一方で、生成後にPPA指標を改善しようとする後処理技術は、外部から動作しモデルのパラメータを更新しないため、効率的でなく、モデルの内在的な設計能力を向上させることができません。

このギャップを埋めるために、階層型報酬駆動強化学習フレームワークであるChipSeek-R1を導入します。ChipSeek-R1は大規模言語モデルを訓練して、機能的な正しさと最適なPPA指標を両立したRTLコードを生成することを目指しています。本フレームワークは階層型報酬システムを使用しており、強化学習中に構文、機能的な正しさ(シミュレータからのフィードバック)、およびPPA指標(合成ツールからのフィードバック)に関する直接的なフィードバックを取り入れます。これにより、モデルは試行錯誤を通じて複雑なハードウェア設計のトレードオフを学習し、機能的に正確かつPPA最適化されたRTLコードを生成することができます。

ChipSeek-R1を標準ベンチマーク(VerilogEval, RTLLM)で評価した結果、機能的な正しさにおいて最先端の成果を得ました。特にRTLLMベンチマークでは、ChipSeek-R1が27つのRTLデザインにおいて元の人間が書いたコードのPPA指標を超える結果を得ました。これらの研究結果は、ツールチェーンからのフィードバックをLLMの訓練に統合することの有効性を示し、強化学習が人間を超えるRTLコードの自動生成に向けた可能性を持つことを示唆しています。我々は匿名のGitHub上でソースコードを開源します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています