Command Palette
Search for a command to run...
ReCode : Mise à jour des connaissances sur les API de code avec l'apprentissage par renforcement
Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

Résumé
Les grands modèles de langage (LLMs) présentent des capacités remarquables de génération de code, mais ils échouent lorsqu'il s'agit d'adapter leurs performances aux mises à jour fréquentes des API des bibliothèques externes. Cette limitation critique, qui découle d'une dépendance à des connaissances obsolètes sur les API issues de leurs données d'entraînement, même en présence de la documentation actuelle, entrave la génération fiable de code dans des environnements dynamiques. Pour remédier à ce problème, nous proposons ReCode (apprentissage par renforcement basé sur des règles pour la mise à jour du code), un cadre novateur qui imite l'adaptation des programmeurs humains aux changements d'API. Plus précisément, nous avons construit un ensemble de données composé d'environ 2 000 entrées pour entraîner les LLMs à effectuer une migration de version en fonction des informations mises à jour. Ensuite, nous introduisons une métrique modifiée de similarité de chaînes pour l'évaluation du code, utilisée comme récompense pour l'apprentissage par renforcement. Nos expériences montrent que ReCode améliore considérablement les performances de génération de code des LLMs dans des scénarios d'API dynamiques, notamment sur la tâche inédite CodeUpdateArena. De manière cruciale, comparativement au réglage supervisé fin (fine-tuning), ReCode a moins d'impact sur les capacités générales de génération de code des LLMs. Nous avons appliqué ReCode à divers LLMs et algorithmes d'apprentissage par renforcement (GRPO et DAPO), tous obtenant des améliorations cohérentes. Notamment, après l'entraînement, Qwen2.5-Coder-7B surpass le modèle ajusté aux instructions de codage avec 32 milliards de paramètres et le modèle d'inférence avec la même architecture. Le code est disponible sur https://github.com/zjunlp/ReCode.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.