vor einem Jahr

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

Wir adressieren das Problem der Codegenerierung auf Basis von mehrstufigen Ausführungsfeedbacks. Bestehende Methoden generieren entweder Code ohne Feedback oder nutzen komplexe, hierarchische Verstärkungslernalgorithmen zur Optimierung mehrstufiger Belohnungen. Wir schlagen einen einfachen, aber skalierbaren Ansatz vor, namens CODE, der die mehrstufige Codegenerierung ausschließlich mit einstufigen Belohnungen löst. Unser wesentlicher Einblick ist, dass die Codegenerierung ein einstufig erholbares Markov-Entscheidungsprozess (MDP) ist, bei dem der korrekte Code aus jedem Zwischenzustand des Codes in einem einzigen Schritt wiederhergestellt werden kann. CODE trainiert iterativ sowohl einen Generator, um auf Basis von mehrstufigem Ausführungsfeedback codierte Lösungen zu liefern, als auch einen Verifizierer, um den neu generierten Code zu bewerten. Experimentelle Evaluierungen zeigen, dass unser Ansatz erhebliche Verbesserungen gegenüber den Stand-of-the-Art-Baselines erreicht. Wir analysieren die Designentscheidungen der Belohnungsmodelle und der Politik und demonstrieren die Effektivität von CODE bei der Nutzung des Ausführungsfeedbacks.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor einem Jahr

Codegenerierung

Verstärkendes Lernen

Präferenzmodellierung

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor einem Jahr

Codegenerierung

Verstärkendes Lernen

Präferenzmodellierung

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Mehrfach-Codegenerierung durch einstufige Belohnungen | Paper | HyperAI

Command Palette

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mehrfach-Codegenerierung durch einstufige Belohnungen

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters