HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Abstract

Wir adressieren das Problem der Codegenerierung auf Basis von mehrstufigen Ausführungsfeedbacks. Bestehende Methoden generieren entweder Code ohne Feedback oder nutzen komplexe, hierarchische Verstärkungslernalgorithmen zur Optimierung mehrstufiger Belohnungen. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, namens CODE, der die mehrstufige Codegenerierung ausschließlich mit einstufigen Belohnungen löst. Unser wesentlicher Einblick ist, dass die Codegenerierung ein einstufig erholbares Markov-Entscheidungsprozess (MDP) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einem einzigen Schritt wiederhergestellt werden kann. CODE trainiert iterativ sowohl einen Generator, um auf Basis von mehrstufigem Ausführungsfeedback codierte Lösungen zu liefern, als auch einen Verifizierer, um den neu generierten Code zu bewerten. Experimentelle Evaluierungen zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Baselines erreicht. Wir analysieren die Designentscheidungen der Belohnungsmodelle und der Politik und demonstrieren die Effektivität von CODE bei der Nutzung des Ausführungsfeedbacks.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp