CoDesc : Un grand jeu de données parallèles code-description

La traduction entre langage naturel et code source peut faciliter le développement logiciel en permettant aux développeurs de comprendre, concevoir, rechercher et écrire des programmes informatiques à l’aide de langage naturel. Malgré l’intérêt croissant de la part de l’industrie et de la communauté de recherche, cette tâche reste souvent difficile en raison du manque de grands jeux de données standard adaptés à l’entraînement des modèles neuronaux profonds, de méthodes standard de nettoyage des bruits, ainsi que de benchmarks d’évaluation. Cela oblige les chercheurs à collecter de nouveaux jeux de données à petite échelle, entraînant ainsi des incohérences entre les travaux publiés. Dans cette étude, nous présentons CoDesc — un grand jeu de données parallèle composé de 4,2 millions de méthodes Java accompagnées de descriptions en langage naturel. Grâce à une analyse approfondie, nous identifions et éliminons les principaux schémas de bruit présents dans le jeu de données. Nous démontrons la compétence de CoDesc sur deux tâches complémentaires pour les paires code-description : la synthèse de résumés de code et la recherche de code. Nous montrons que ce jeu de données améliore la recherche de code jusqu’à 22 % et atteint un nouveau record d’état de l’art en synthèse de résumés de code. En outre, nous démontrons l’efficacité de CoDesc dans un cadre d’entraînement préalable (pre-training) suivi de réglage fin (fine-tuning), ouvrant ainsi la voie à la construction de modèles linguistiques préentraînés pour Java. Pour favoriser les recherches futures, nous mettons à disposition le jeu de données, un outil de traitement des données et un benchmark à l’adresse suivante : \url{https://github.com/csebuetnlp/CoDesc}.