Command Palette
Search for a command to run...
Génération de Code Multi-Tours par Récompenses en Un Étape
Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé
Nous abordons le problème de la génération de code à partir d'un retour d'exécution multi-tours. Les méthodes existantes génèrent soit du code sans aucun retour d'information, soit utilisent un apprentissage par renforcement complexe et hiérarchique pour optimiser les récompenses multi-tours. Nous proposons une approche simple mais évolutive, appelée CODE, qui résout la génération de code multi-tours en utilisant uniquement des récompenses mono-étape. Notre intuition clé est que la génération de code est un MDP (Processus Décisionnel Markovien) à récupération mono-étape, où le bon code peut être récupéré à partir de n'importe quel état intermédiaire du code en un seul tour. CODE entraîne itérativement à la fois un générateur pour fournir des solutions de code conditionnées par le retour d'exécution multi-tours et un vérificateur pour évaluer le nouveau code généré. Les évaluations expérimentales montrent que notre approche réalise des améliorations significatives par rapport aux méthodes de référence les plus avancées. Nous fournissons une analyse des choix de conception des modèles de récompense et de la politique, et démontrons l'efficacité de CODE dans l'utilisation du retour d'exécution.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.