HyperAIHyperAI
il y a 2 mois

Planification-orientée : Un flux de travail de programmation pour les grands modèles linguistiques

Lei, Chao ; Chang, Yanchuan ; Lipovetzky, Nir ; Ehinger, Krista A.
Planification-orientée : Un flux de travail de programmation pour les grands modèles linguistiques
Résumé

Les performances remarquables des grands modèles de langage (LLMs) suscitent de nombreuses discussions sur leur application à la génération de code. Des recherches récentes suggèrent que des améliorations continues du programme par le biais de tests visibles peuvent accroître la précision de la génération de code dans les LLMs. Cependant, ces méthodes sont affectées par l'inefficacité et la capacité limitée de raisonnement des LLMs. Dans ce travail, nous proposons un flux de travail de programmation pour les grands modèles de langage (LPW) conçu pour améliorer à la fois la génération initiale du code et les raffinements ultérieurs au sein d'un flux structuré en deux phases. Plus précisément, la phase de génération des solutions élabore un plan de solution, qui est ensuite vérifié par des tests visibles afin de spécifier la solution en langage naturel souhaitée. Ensuite, la phase d'implémentation du code rédige un premier code conformément au plan de solution et à sa vérification. Si le code généré échoue aux tests visibles, la vérification du plan sert de solution prévue pour informer constamment le processus de raffinement destiné à corriger les bugs. Comparativement aux méthodes les plus avancées actuellement disponibles sur divers LLMs existants, LPW améliore significativement l'exactitude Pass@1 jusqu'à 16,4 % sur des benchmarks bien établis pour la génération texte-code. LPW établit également une nouvelle référence en matière d'exactitude Pass@1, atteignant 98,2 % sur HumanEval, 84,8 % sur MBPP, 59,3 % sur LiveCode, 62,6 % sur APPS et 34,7 % sur CodeContest, en utilisant GPT-4o comme base. Notre code est librement accessible à l'adresse suivante : https://github.com/you68681/lpw

Planification-orientée : Un flux de travail de programmation pour les grands modèles linguistiques | Articles de recherche récents | HyperAI