Génération de Code Multi-Tours par Récompenses en Un Étape

Nous abordons le problème de la génération de code à partir d'un retour d'exécution multi-tours. Les méthodes existantes génèrent soit du code sans aucun retour d'information, soit utilisent un apprentissage par renforcement complexe et hiérarchique pour optimiser les récompenses multi-tours. Nous proposons une approche simple mais évolutive, appelée CODE, qui résout la génération de code multi-tours en utilisant uniquement des récompenses mono-étape. Notre intuition clé est que la génération de code est un MDP (Processus Décisionnel Markovien) à récupération mono-étape, où le bon code peut être récupéré à partir de n'importe quel état intermédiaire du code en un seul tour. CODE entraîne itérativement à la fois un générateur pour fournir des solutions de code conditionnées par le retour d'exécution multi-tours et un vérificateur pour évaluer le nouveau code généré. Les évaluations expérimentales montrent que notre approche réalise des améliorations significatives par rapport aux méthodes de référence les plus avancées. Nous fournissons une analyse des choix de conception des modèles de récompense et de la politique, et démontrons l'efficacité de CODE dans l'utilisation du retour d'exécution.