HyperAIHyperAI
il y a 2 mois

CodeT5 : Modèles pré-entraînés unifiés encodeur-décodeur prenant en compte les identifiants pour la compréhension et la génération de code

Wang, Yue ; Wang, Weishi ; Joty, Shafiq ; Hoi, Steven C. H.
CodeT5 : Modèles pré-entraînés unifiés encodeur-décodeur prenant en compte les identifiants pour la compréhension et la génération de code
Résumé

Les modèles pré-entraînés pour les langues naturelles (LN), tels que BERT et GPT, ont récemment montré leur capacité à se transférer efficacement aux langages de programmation (LP) et à apporter de nombreux avantages à un large éventail de tâches liées au code. Malgré leurs succès, la plupart des méthodes actuelles reposent soit sur une pré-entraîne uniquement en encodeur (ou en décodeur), ce qui est sous-optimal pour les tâches de génération (respectivement de compréhension), soit traitent le fragment de code de la même manière que les LN, négligeant ainsi les caractéristiques spécifiques des LP telles que les types de jetons.Nous présentons CodeT5, un modèle Transformer pré-entraîné unifié d'encodeur-décodeur qui exploite mieux la sémantique du code transmise par les identifiants attribués par les développeurs. Notre modèle utilise un cadre unifié pour soutenir sans heurt à la fois les tâches de compréhension et de génération de code, et permet l'apprentissage multi-tâches. De plus, nous proposons une nouvelle tâche de pré-entraînement sensible aux identifiants qui permet au modèle d'identifier quels jetons de code sont des identifiants et de les récupérer lorsqu'ils sont masqués.En outre, nous suggérons d'exploiter les commentaires dans le code écrits par les utilisateurs avec une tâche générative bimodale double pour une meilleure alignement entre LN et LP. Des expériences exhaustives montrent que CodeT5 surpasse considérablement les méthodes précédentes dans des tâches de compréhension telles que la détection de défauts dans le code et la détection de clones, ainsi que dans des tâches de génération dans diverses directions incluant LP-LN, LN-LP et LP-LP.Une analyse supplémentaire révèle que notre modèle capture mieux l'information sémantique provenant du code. Notre code source et nos modèles pré-entraînés sont disponibles sur https://github.com/salesforce/CodeT5.

CodeT5 : Modèles pré-entraînés unifiés encodeur-décodeur prenant en compte les identifiants pour la compréhension et la génération de code | Articles de recherche récents | HyperAI