HyperAI

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
Veröffentlichungsdatum: 6/20/2025
Mehrfach-Codegenerierung durch einstufige Belohnungen
Abstract

Wir adressieren das Problem der Codegenerierung auf Basis von mehrstufigen Ausführungsfeedbacks. Bestehende Methoden generieren entweder Code ohne Feedback oder nutzen komplexe, hierarchische Verstärkungslernalgorithmen zur Optimierung mehrstufiger Belohnungen. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, namens CODE, der die mehrstufige Codegenerierung ausschließlich mit einstufigen Belohnungen löst. Unser wesentlicher Einblick ist, dass die Codegenerierung ein einstufig erholbares Markov-Entscheidungsprozess (MDP) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einem einzigen Schritt wiederhergestellt werden kann. CODE trainiert iterativ sowohl einen Generator, um auf Basis von mehrstufigem Ausführungsfeedback codierte Lösungen zu liefern, als auch einen Verifizierer, um den neu generierten Code zu bewerten. Experimentelle Evaluierungen zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Baselines erreicht. Wir analysieren die Designentscheidungen der Belohnungsmodelle und der Politik und demonstrieren die Effektivität von CODE bei der Nutzung des Ausführungsfeedbacks.