HyperAIHyperAI
il y a 13 jours

Utilisation de modèles de langage pré-entraînés pour la génération de code

{Mayada Hadhoud, Samir Shaheen, Ahmed Soliman}
Utilisation de modèles de langage pré-entraînés pour la génération de code
Résumé

L’aide au code fait référence à l’utilisation d’outils, de techniques et de modèles variés visant à soutenir les développeurs tout au long du processus de développement logiciel. À mesure que les tâches de codage deviennent de plus en plus complexes, l’aide au code joue un rôle central dans l’amélioration de la productivité des développeurs, la réduction des erreurs et l’optimisation du flux de travail de codage. Cette assistance peut prendre diverses formes, notamment la complétion automatique du code, la détection et la correction d’erreurs, la génération de code, le soutien à la documentation et des suggestions contextuelles. Les modèles de langage se sont imposés comme des composants essentiels de l’aide au code, offrant aux développeurs la capacité de recevoir des suggestions intelligentes, de générer des extraits de code et d’améliorer globalement leur compétence en programmation. Dans ce travail, nous proposons de nouveaux modèles hybrides pour la génération de code en exploitant des modèles pré-entraînés de langage tels que BERT, RoBERTa, ELECTRA et LUKE, combinés au modèle causal Marian. Ces modèles ont été sélectionnés en raison de leurs performances remarquables sur diverses tâches de traitement du langage naturel. Nous évaluons les performances de ces modèles sur deux jeux de données, CoNaLa et DJANGO, et les comparons aux modèles les plus avancés existants. Notre objectif est d’explorer le potentiel des modèles pré-entraînés basés sur les transformateurs de révolutionner la génération de code, en offrant une précision et une efficacité accrues dans la navigation de scénarios de codage complexes. En outre, nous menons une analyse des erreurs et affinons le code généré. Nos résultats montrent que ces modèles, lorsqu’ils sont couplés au décodeur Marian, améliorent significativement l’exactitude et l’efficacité de la génération de code. En particulier, le modèle RoBERTaMarian atteint un score BLEU maximal de 35,74 et une précision d’exact match de 13,8 % sur CoNaLa, tandis que le modèle LUKE-Marian obtient un score BLEU de 89,34 et une précision d’exact match de 78,50 % sur DJANGO. L’implémentation de ce travail est disponible à l’adresse suivante : https://github.com/AhmedSSoliman/Leveraging-Pretrained-Language-Models-for-Code-Generation.

Utilisation de modèles de langage pré-entraînés pour la génération de code | Articles de recherche récents | HyperAI