Command Palette
Search for a command to run...
Mehrfach-Codegenerierung durch einstufige Belohnungen
Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Abstract
Wir adressieren das Problem der Codegenerierung auf Basis von mehrstufigen Ausführungsfeedbacks. Bestehende Methoden generieren entweder Code ohne Feedback oder nutzen komplexe, hierarchische Verstärkungslernalgorithmen zur Optimierung mehrstufiger Belohnungen. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, namens CODE, der die mehrstufige Codegenerierung ausschließlich mit einstufigen Belohnungen löst. Unser wesentlicher Einblick ist, dass die Codegenerierung ein einstufig erholbares Markov-Entscheidungsprozess (MDP) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einem einzigen Schritt wiederhergestellt werden kann. CODE trainiert iterativ sowohl einen Generator, um auf Basis von mehrstufigem Ausführungsfeedback codierte Lösungen zu liefern, als auch einen Verifizierer, um den neu generierten Code zu bewerten. Experimentelle Evaluierungen zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Baselines erreicht. Wir analysieren die Designentscheidungen der Belohnungsmodelle und der Politik und demonstrieren die Effektivität von CODE bei der Nutzung des Ausführungsfeedbacks.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.