vor 2 Monaten

Große Sprachmodelle, die auf Code trainiert wurden, evaluieren

Mark Chen; Jerry Tworek; Heewoo Jun; Qiming Yuan; Henrique Ponde de Oliveira Pinto; Jared Kaplan; Harri Edwards; Yuri Burda; Nicholas Joseph; Greg Brockman; Alex Ray; Raul Puri; Gretchen Krueger; Michael Petrov; Heidy Khlaaf; Girish Sastry; Pamela Mishkin; Brooke Chan; Scott Gray; Nick Ryder; Mikhail Pavlov; Alethea Power; Lukasz Kaiser; Mohammad Bavarian; Clemens Winter; Philippe Tillet; Felipe Petroski Such; Dave Cummings; Matthias Plappert; Fotios Chantzis; Elizabeth Barnes; Ariel Herbert-Voss; William Hebgen Guss; Alex Nichol; Alex Paino; Nikolas Tezak; Jie Tang; Igor Babuschkin; Suchir Balaji; Shantanu Jain; William Saunders; Christopher Hesse; Andrew N. Carr; Jan Leike; Josh Achiam; Vedant Misra; Evan Morikawa; Alec Radford; Matthew Knight; Miles Brundage; Mira Murati; Katie Mayer; Peter Welinder; Bob McGrew; Dario Amodei; Sam McCandlish; Ilya Sutskever; Wojciech Zaremba

Details der Forschungsarbeit anzeigen

Große Sprachmodelle, die auf Code trainiert wurden, evaluieren

Abstract

Wir stellen Codex vor, ein GPT-Sprachmodell, das anhand öffentlich verfügbarer Codebeispiele von GitHub feinjustiert wurde, und untersuchen dessen Fähigkeiten zur Erstellung von Python-Code. Eine spezielle Produktionsversion von Codex unterstützt GitHub Copilot. Auf HumanEval, einem neuen Evaluationsdatensatz, den wir veröffentlicht haben, um die funktionale Korrektheit bei der Synthese von Programmen aus Docstrings zu messen, löst unser Modell 28,8 % der Probleme, während GPT-3 0 % und GPT-J 11,4 % lösen. Darüber hinaus stellen wir fest, dass wiederholtes Sampling vom Modell eine überraschend effektive Strategie ist, um funktionierende Lösungen für schwierige Anforderungen zu erzeugen. Mit dieser Methode lösen wir 70,2 % unserer Probleme mit 100 Proben pro Problem. Eine sorgfältige Untersuchung unseres Modells zeigt seine Grenzen auf, darunter Schwierigkeiten bei Docstrings, die lange Kette von Operationen beschreiben, sowie bei der Bindung von Operationen an Variablen. Schließlich diskutieren wir die potentiellen weitreichenden Auswirkungen der Bereitstellung mächtiger Codegenerierungstechnologien und behandeln dabei Aspekte der Sicherheit, des Schutzes und der Wirtschaftlichkeit.