il y a 4 mois

ReCode : Mise à jour des connaissances sur les API de code avec l'apprentissage par renforcement

Voir les détails de l'article Voir le code

Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

ReCode : Mise à jour des connaissances sur les API de code avec l'apprentissage par renforcement

Résumé

Les grands modèles de langage (LLMs) présentent des capacités remarquables de génération de code, mais ils échouent lorsqu'il s'agit d'adapter leurs performances aux mises à jour fréquentes des API des bibliothèques externes. Cette limitation critique, qui découle d'une dépendance à des connaissances obsolètes sur les API issues de leurs données d'entraînement, même en présence de la documentation actuelle, entrave la génération fiable de code dans des environnements dynamiques. Pour remédier à ce problème, nous proposons ReCode (apprentissage par renforcement basé sur des règles pour la mise à jour du code), un cadre novateur qui imite l'adaptation des programmeurs humains aux changements d'API. Plus précisément, nous avons construit un ensemble de données composé d'environ 2 000 entrées pour entraîner les LLMs à effectuer une migration de version en fonction des informations mises à jour. Ensuite, nous introduisons une métrique modifiée de similarité de chaînes pour l'évaluation du code, utilisée comme récompense pour l'apprentissage par renforcement. Nos expériences montrent que ReCode améliore considérablement les performances de génération de code des LLMs dans des scénarios d'API dynamiques, notamment sur la tâche inédite CodeUpdateArena. De manière cruciale, comparativement au réglage supervisé fin (fine-tuning), ReCode a moins d'impact sur les capacités générales de génération de code des LLMs. Nous avons appliqué ReCode à divers LLMs et algorithmes d'apprentissage par renforcement (GRPO et DAPO), tous obtenant des améliorations cohérentes. Notamment, après l'entraînement, Qwen2.5-Coder-7B surpass le modèle ajusté aux instructions de codage avec 32 milliards de paramètres et le modèle d'inférence avec la même architecture. Le code est disponible sur https://github.com/zjunlp/ReCode.

Dépôts de code

zjunlp/recode

Officiel

pytorch

Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp