il y a 8 mois

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

Nous abordons le problème de la génération de code à partir d'un retour d'exécution multi-tours. Les méthodes existantes génèrent soit du code sans aucun retour d'information, soit utilisent un apprentissage par renforcement complexe et hiérarchique pour optimiser les récompenses multi-tours. Nous proposons une approche simple mais évolutive, appelée CODE, qui résout la génération de code multi-tours en utilisant uniquement des récompenses mono-étape. Notre intuition clé est que la génération de code est un MDP (Processus Décisionnel Markovien) à récupération mono-étape, où le bon code peut être récupéré à partir de n'importe quel état intermédiaire du code en un seul tour. CODE entraîne itérativement à la fois un générateur pour fournir des solutions de code conditionnées par le retour d'exécution multi-tours et un vérificateur pour évaluer le nouveau code généré. Les évaluations expérimentales montrent que notre approche réalise des améliorations significatives par rapport aux méthodes de référence les plus avancées. Nous fournissons une analyse des choix de conception des modèles de récompense et de la politique, et démontrons l'efficacité de CODE dans l'utilisation du retour d'exécution.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Génération De Code

Apprentissage Par Renforcement

Modélisation Des Préférences

Approche/Framework

Traitement Du Langage Naturel

Tâche

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Génération De Code

Apprentissage Par Renforcement

Modélisation Des Préférences

Approche/Framework

Traitement Du Langage Naturel

Tâche

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Génération de Code Multi-Tours par Récompenses en Un Étape

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération de Code Multi-Tours par Récompenses en Un Étape

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Génération de Code Multi-Tours par Récompenses en Un Étape

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters