HyperAIHyperAI

Command Palette

Search for a command to run...

Évaluation de la Suivi d'Instructions pour les Grands Modèles Linguistiques

Jeffrey Zhou Tianjian Lu Swaroop Mishra Siddhartha Brahma Sujoy Basu Yi Luan Denny Zhou Le Hou

Résumé

Une capacité centrale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, l'évaluation de ces capacités n'est pas standardisée : les évaluations humaines sont coûteuses, lentes et ne peuvent pas être reproduites objectivement, tandis que l'auto-évaluation basée sur les LLMs peut être biaisée ou limitée par la capacité du modèle évaluateur. Pour surmonter ces problèmes, nous introduisons Instruction-Following Eval (IFEval) pour les grands modèles de langage. IFEval est un benchmark d'évaluation simple et facilement reproductible. Il se concentre sur un ensemble d'« instructions vérifiables » telles que « rédiger en plus de 400 mots » et « mentionner le mot-clé IA au moins 3 fois ». Nous avons identifié 25 types d'instructions vérifiables et construit environ 500 prompts, chacun contenant une ou plusieurs instructions vérifiables. Nous présentons les résultats d'évaluation de deux LLMs largement disponibles sur le marché. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/google-research/google-research/tree/master/instruction_following_eval


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Évaluation de la Suivi d'Instructions pour les Grands Modèles Linguistiques | Articles | HyperAI