HyperAIHyperAI

Command Palette

Search for a command to run...

vor 5 Monaten

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Mehrfach-Codegenerierung durch einstufige Belohnungen

Abstract

Wir adressieren das Problem der Codegenerierung auf Basis von mehrstufigen Ausführungsfeedbacks. Bestehende Methoden generieren entweder Code ohne Feedback oder nutzen komplexe, hierarchische Verstärkungslernalgorithmen zur Optimierung mehrstufiger Belohnungen. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, namens CODE, der die mehrstufige Codegenerierung ausschließlich mit einstufigen Belohnungen löst. Unser wesentlicher Einblick ist, dass die Codegenerierung ein einstufig erholbares Markov-Entscheidungsprozess (MDP) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einem einzigen Schritt wiederhergestellt werden kann. CODE trainiert iterativ sowohl einen Generator, um auf Basis von mehrstufigem Ausführungsfeedback codierte Lösungen zu liefern, als auch einen Verifizierer, um den neu generierten Code zu bewerten. Experimentelle Evaluierungen zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Baselines erreicht. Wir analysieren die Designentscheidungen der Belohnungsmodelle und der Politik und demonstrieren die Effektivität von CODE bei der Nutzung des Ausführungsfeedbacks.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mehrfach-Codegenerierung durch einstufige Belohnungen | Forschungsarbeiten | HyperAI