Große Sprachmodelle, die auf Code trainiert wurden, evaluieren

Wir stellen Codex vor, ein GPT-Sprachmodell, das anhand öffentlich verfügbarer Codebeispiele von GitHub feinjustiert wurde, und untersuchen dessen Fähigkeiten zur Erstellung von Python-Code. Eine spezielle Produktionsversion von Codex unterstützt GitHub Copilot. Auf HumanEval, einem neuen Evaluationsdatensatz, den wir veröffentlicht haben, um die funktionale Korrektheit bei der Synthese von Programmen aus Docstrings zu messen, löst unser Modell 28,8 % der Probleme, während GPT-3 0 % und GPT-J 11,4 % lösen. Darüber hinaus stellen wir fest, dass wiederholtes Sampling vom Modell eine überraschend effektive Strategie ist, um funktionierende Lösungen für schwierige Anforderungen zu erzeugen. Mit dieser Methode lösen wir 70,2 % unserer Probleme mit 100 Proben pro Problem. Eine sorgfältige Untersuchung unseres Modells zeigt seine Grenzen auf, darunter Schwierigkeiten bei Docstrings, die lange Kette von Operationen beschreiben, sowie bei der Bindung von Operationen an Variablen. Schließlich diskutieren wir die potentiellen weitreichenden Auswirkungen der Bereitstellung mächtiger Codegenerierungstechnologien und behandeln dabei Aspekte der Sicherheit, des Schutzes und der Wirtschaftlichkeit.