il y a 2 mois

Évaluation des grands modèles de langage formés sur du code

Mark Chen; Jerry Tworek; Heewoo Jun; Qiming Yuan; Henrique Ponde de Oliveira Pinto; Jared Kaplan; Harri Edwards; Yuri Burda; Nicholas Joseph; Greg Brockman; Alex Ray; Raul Puri; Gretchen Krueger; Michael Petrov; Heidy Khlaaf; Girish Sastry; Pamela Mishkin; Brooke Chan; Scott Gray; Nick Ryder; Mikhail Pavlov; Alethea Power; Lukasz Kaiser; Mohammad Bavarian; Clemens Winter; Philippe Tillet; Felipe Petroski Such; Dave Cummings; Matthias Plappert; Fotios Chantzis; Elizabeth Barnes; Ariel Herbert-Voss; William Hebgen Guss; Alex Nichol; Alex Paino; Nikolas Tezak; Jie Tang; Igor Babuschkin; Suchir Balaji; Shantanu Jain; William Saunders; Christopher Hesse; Andrew N. Carr; Jan Leike; Josh Achiam; Vedant Misra; Evan Morikawa; Alec Radford; Matthew Knight; Miles Brundage; Mira Murati; Katie Mayer; Peter Welinder; Bob McGrew; Dario Amodei; Sam McCandlish; Ilya Sutskever; Wojciech Zaremba

Voir les détails de l'article

Évaluation des grands modèles de langage formés sur du code

Résumé

Nous présentons Codex, un modèle de langage GPT affiné à partir de code publiquement disponible sur GitHub, et nous étudions ses capacités d'écriture de code Python. Une version distincte de production de Codex alimente GitHub Copilot. Sur HumanEval, un nouveau jeu d'évaluation que nous avons publié pour mesurer la correction fonctionnelle lors de la synthèse de programmes à partir de docstrings, notre modèle résout 28,8 % des problèmes, tandis que GPT-3 en résout 0 % et GPT-J 11,4 %. De plus, nous constatons que l'échantillonnage répété du modèle est une stratégie surprenamment efficace pour produire des solutions fonctionnelles à des invites difficiles. En utilisant cette méthode, nous résolvons 70,2 % de nos problèmes avec 100 échantillons par problème. Une enquête minutieuse de notre modèle révèle ses limites, notamment sa difficulté à traiter les docstrings décrivant des chaînes d'opérations longues et à lier des opérations à des variables. Enfin, nous discutons des impacts potentiels plus larges du déploiement de technologies puissantes de génération de code, abordant les aspects liés à la sécurité, la sûreté et l'économie.