il y a 13 jours

Lecture de StackOverflow encourage le trichage : l’ajout du texte de la question améliore la génération extractive de code

Gabriel Orlanski, Alex Gittens

Résumé

Répondre à une question de programmation en ne se basant que sur son titre est difficile, car des informations contextuelles essentielles sont omises. À partir de cette observation, nous présentons un corpus de plus de 40 000 textes de questions provenant de StackOverflow, destiné à être utilisé conjointement avec les intentions correspondantes issues du jeu de données CoNaLa (Yin et al., 2018). En combinant à la fois l’intention et le corps de la question, nous utilisons BART pour établir une ligne de base avec un score BLEU de 34,35 pour cette nouvelle tâche. Nous constatons une amélioration supplémentaire de 2,8 % en combinant les données extraites automatiquement à partir de CoNaLa avec les données étiquetées, atteignant ainsi un score BLEU de 35,32. Nous évaluons les modèles CoNaLa précédemment les plus performants avec ces données supplémentaires et constatons que notre méthode proposée, qui exploite à la fois le corps de la question et les données extraites, dépasse le score BLEU de l’état de l’art antérieur de 71,96 %. Enfin, nous menons des études d’ablation afin de démontrer que BART se comporte comme un apprenant multimodal non supervisé et d’examiner son comportement extractif. Le code et les données sont disponibles à l’adresse suivante : https://github.com/gabeorlanski/stackoverflow-encourages-cheating.