Évaluation des grands modèles de langage formés sur du code

Nous présentons Codex, un modèle de langage GPT affiné à partir de code publiquement disponible sur GitHub, et nous étudions ses capacités d'écriture de code Python. Une version distincte de production de Codex alimente GitHub Copilot. Sur HumanEval, un nouveau jeu d'évaluation que nous avons publié pour mesurer la correction fonctionnelle lors de la synthèse de programmes à partir de docstrings, notre modèle résout 28,8 % des problèmes, tandis que GPT-3 en résout 0 % et GPT-J 11,4 %. De plus, nous constatons que l'échantillonnage répété du modèle est une stratégie surprenamment efficace pour produire des solutions fonctionnelles à des invites difficiles. En utilisant cette méthode, nous résolvons 70,2 % de nos problèmes avec 100 échantillons par problème. Une enquête minutieuse de notre modèle révèle ses limites, notamment sa difficulté à traiter les docstrings décrivant des chaînes d'opérations longues et à lier des opérations à des variables. Enfin, nous discutons des impacts potentiels plus larges du déploiement de technologies puissantes de génération de code, abordant les aspects liés à la sécurité, la sûreté et l'économie.