ChipSeek-R1: Generierung von menschlich übertreffendem RTL durch hierarchisches belohnungsgetriebenes Reinforcement Learning

Große Sprachmodelle (GSM) zeigen ein erhebliches Potenzial zur Automatisierung der Generierung von Register-Transfer-Level-Code (RTL). Aktuelle Ansätze stehen jedoch vor einer kritischen Herausforderung: Sie können nicht gleichzeitig Funktionsrichtigkeit und Hardwarequalität (Leistung, Geschwindigkeit, Fläche - PPA) optimieren. Methoden, die auf überwachtem Feinjustierung basieren, erzeugen oft funktional korrekten, aber PPA-unoptimierten Code, da sie keine Mechanismen haben, um Optimierungsprinzipien zu lernen. Im Gegensatz dazu sind nachbearbeitende Techniken, die versuchen, die PPA-Metriken nach der Generierung zu verbessern, oft ineffizient, da sie extern operieren und die Parameter des GSM nicht aktualisieren. Dies führt dazu, dass sie die intrinsischen Designfähigkeiten des Modells nicht erhöhen. Um diese Lücke zu schließen, stellen wir ChipSeek-R1 vor, ein hierarchisches belohnungsgetriebenes Reinforcement-Learning-Framework zur Ausbildung von GSM für die Generierung von RTL-Code, der sowohl funktional korrekt als auch PPA-optimal ist. ChipSeek-R1 verwendet ein hierarchisches Belohnungssystem, das während des Reinforcement Learnings direkte Rückmeldungen zur Syntax, Funktionsrichtigkeit (von Simulatoren) und PPA-Metriken (von Synthesetools) integriert. Dies ermöglicht es dem Modell durch Versuch und Irrtum komplexe Hardware-Design-Kompromisse zu lernen und RTL-Code zu generieren, der sowohl funktional korrekt als auch PPA-optimal ist. Bei der Bewertung von ChipSeek-R1 anhand standardisierter Benchmarks (VerilogEval, RTLLM) erreichen wir Stand-des-Wissens-Ergebnisse in Bezug auf Funktionsrichtigkeit. Bemerkenswerterweise übertreffen 27 RTL-Designs von ChipSeek-R1 auf dem RTLLM-Benchmark die PPA-Metriken des ursprünglich menschlichen Codes. Unsere Ergebnisse belegen die Effektivität der Integration von Toolchain-Rückmeldungen in das Training von GSM und unterstreichen das Potential des Reinforcement Learnings zur automatisierten Generierung von menschenübertreffenden RTL-Codes. Wir veröffentlichen unseren Quellcode anonym auf GitHub.