HyperAIHyperAI

Command Palette

Search for a command to run...

Große Sprachmodelle, die auf Code trainiert wurden, evaluieren

Zusammenfassung

Wir stellen Codex vor, ein GPT-Sprachmodell, das anhand öffentlich verfügbarer Codebeispiele von GitHub feinjustiert wurde, und untersuchen dessen Fähigkeiten zur Erstellung von Python-Code. Eine spezielle Produktionsversion von Codex unterstützt GitHub Copilot. Auf HumanEval, einem neuen Evaluationsdatensatz, den wir veröffentlicht haben, um die funktionale Korrektheit bei der Synthese von Programmen aus Docstrings zu messen, löst unser Modell 28,8 % der Probleme, während GPT-3 0 % und GPT-J 11,4 % lösen. Darüber hinaus stellen wir fest, dass wiederholtes Sampling vom Modell eine überraschend effektive Strategie ist, um funktionierende Lösungen für schwierige Anforderungen zu erzeugen. Mit dieser Methode lösen wir 70,2 % unserer Probleme mit 100 Proben pro Problem. Eine sorgfältige Untersuchung unseres Modells zeigt seine Grenzen auf, darunter Schwierigkeiten bei Docstrings, die lange Kette von Operationen beschreiben, sowie bei der Bindung von Operationen an Variablen. Schließlich diskutieren wir die potentiellen weitreichenden Auswirkungen der Bereitstellung mächtiger Codegenerierungstechnologien und behandeln dabei Aspekte der Sicherheit, des Schutzes und der Wirtschaftlichkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp