ChipSeek-R1 : Génération de RTL surpassant les capacités humaines par apprentissage par renforcement hiérarchique guidé par des récompenses

Les grands modèles de langage (LLMs) montrent un potentiel significatif pour l'automatisation de la génération de code au niveau du transfert d'enregistreurs (RTL). Cependant, les approches actuelles font face à un défi critique : elles ne peuvent pas optimiser simultanément la correction fonctionnelle et la qualité matérielle (Puissance, Performance, Aire - PPA). Les méthodes basées sur le réglage fin supervisé génèrent souvent un code fonctionnellement correct mais sous-optimal en termes de PPA, manquant de mécanismes pour apprendre les principes d'optimisation. En revanche, les techniques de post-traitement visant à améliorer les métriques PPA après la génération sont souvent inefficaces car elles opèrent de manière externe sans mettre à jour les paramètres des LLMs, ce qui entraîne une absence d'amélioration des capacités intrinsèques de conception du modèle. Pour combler cette lacune, nous présentons ChipSeek-R1, un cadre d'apprentissage par renforcement guidé par une récompense hiérarchique permettant d'entraîner les LLMs à générer du code RTL qui atteint à la fois la correction fonctionnelle et des métriques PPA optimisées. ChipSeek-R1 utilise un système de récompense hiérarchique, qui intègre des retours directs sur la syntaxe, la correction fonctionnelle (provenant des simulateurs) et les métriques PPA (provenant des outils de synthèse) pendant l'apprentissage par renforcement. Cela permet au modèle d'apprendre les compromis complexes de conception matérielle par essais et erreurs, générant ainsi du code RTL qui est à la fois fonctionnellement correct et optimisé en termes de PPA. En évaluant ChipSeek-R1 sur des benchmarks standards (VerilogEval, RTLLM), nous obtenons des résultats de pointe en matière de correction fonctionnelle. Notamment, sur le benchmark RTLLM, ChipSeek-R1 a généré 27 conceptions RTL surpassant les métriques PPA du code écrit à l'origine par des humains. Nos résultats démontrent l'efficacité de l'intégration des retours du chaînage outil dans l'entraînement des LLMs et soulignent le potentiel de l'apprentissage par renforcement pour permettre une génération automatique de code RTL surpassant celui écrit par des humains. Nous mettons notre code en open source sur GitHub anonyme.