Évaluation de la Suivi d'Instructions pour les Grands Modèles Linguistiques

Une capacité centrale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, l'évaluation de ces capacités n'est pas standardisée : les évaluations humaines sont coûteuses, lentes et ne peuvent pas être reproduites objectivement, tandis que l'auto-évaluation basée sur les LLMs peut être biaisée ou limitée par la capacité du modèle évaluateur. Pour surmonter ces problèmes, nous introduisons Instruction-Following Eval (IFEval) pour les grands modèles de langage. IFEval est un benchmark d'évaluation simple et facilement reproductible. Il se concentre sur un ensemble d'« instructions vérifiables » telles que « rédiger en plus de 400 mots » et « mentionner le mot-clé IA au moins 3 fois ». Nous avons identifié 25 types d'instructions vérifiables et construit environ 500 prompts, chacun contenant une ou plusieurs instructions vérifiables. Nous présentons les résultats d'évaluation de deux LLMs largement disponibles sur le marché. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/google-research/google-research/tree/master/instruction_following_eval