HyperAIHyperAI

Command Palette

Search for a command to run...

Évaluation des grands modèles de langage formés sur du code

Résumé

Nous présentons Codex, un modèle de langage GPT affiné à partir de code publiquement disponible sur GitHub, et nous étudions ses capacités d'écriture de code Python. Une version distincte de production de Codex alimente GitHub Copilot. Sur HumanEval, un nouveau jeu d'évaluation que nous avons publié pour mesurer la correction fonctionnelle lors de la synthèse de programmes à partir de docstrings, notre modèle résout 28,8 % des problèmes, tandis que GPT-3 en résout 0 % et GPT-J 11,4 %. De plus, nous constatons que l'échantillonnage répété du modèle est une stratégie surprenamment efficace pour produire des solutions fonctionnelles à des invites difficiles. En utilisant cette méthode, nous résolvons 70,2 % de nos problèmes avec 100 échantillons par problème. Une enquête minutieuse de notre modèle révèle ses limites, notamment sa difficulté à traiter les docstrings décrivant des chaînes d'opérations longues et à lier des opérations à des variables. Enfin, nous discutons des impacts potentiels plus larges du déploiement de technologies puissantes de génération de code, abordant les aspects liés à la sécurité, la sûreté et l'économie.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp