HyperAIHyperAI
il y a 2 mois

CodeBERT : Un Modèle Pré-entraîné pour les Langages de Programmation et les Langues Naturelles

Feng, Zhangyin ; Guo, Daya ; Tang, Duyu ; Duan, Nan ; Feng, Xiaocheng ; Gong, Ming ; Shou, Linjun ; Qin, Bing ; Liu, Ting ; Jiang, Daxin ; Zhou, Ming
CodeBERT : Un Modèle Pré-entraîné pour les Langages de Programmation et les Langues Naturelles
Résumé

Nous présentons CodeBERT, un modèle pré-entraîné bimodal pour les langages de programmation (PL) et les langages naturels (NL). CodeBERT apprend des représentations polyvalentes qui soutiennent des applications NL-PL en aval telles que la recherche de code en langage naturel, la génération de documentation de code, etc. Nous développons CodeBERT avec une architecture neuronale basée sur le Transformer, et nous l'entraînons à l'aide d'une fonction objectif hybride qui intègre la tâche de pré-entraînement de détection de jetons remplacés, consistant à détecter des alternatives plausibles échantillonnées à partir de générateurs. Cela nous permet d'utiliser à la fois des données bimodales de paires NL-PL et des données unimodales, où les premières fournissent des jetons d'entrée pour l'entraînement du modèle tandis que les dernières aident à apprendre de meilleurs générateurs. Nous évaluons CodeBERT sur deux applications NL-PL en affinant les paramètres du modèle. Les résultats montrent que CodeBERT atteint des performances de pointe dans les tâches de recherche de code en langage naturel et de génération de documentation de code. De plus, pour examiner le type de connaissances acquises par CodeBERT, nous construisons un ensemble de données pour le sondage NL-PL et évaluons dans un cadre zéro-shot où les paramètres des modèles pré-entraînés sont fixés. Les résultats indiquent que CodeBERT performe mieux que les modèles pré-entraînés précédents lors du sondage NL-PL.

CodeBERT : Un Modèle Pré-entraîné pour les Langages de Programmation et les Langues Naturelles | Articles de recherche récents | HyperAI