Anweisungsbefolgungsevaluation für große Sprachmodelle

Eine Kernfunktion großer Sprachmodelle (Large Language Models, LLMs) besteht darin, natürlichsprachliche Anweisungen zu befolgen. Die Bewertung dieser Fähigkeiten ist jedoch nicht standardisiert: Menschenbasierte Bewertungen sind teuer, langsam und nicht objektiv reproduzierbar, während LLM-basierte automatische Bewertungen potenziell verzerrt oder durch die Leistungsfähigkeit des evaluienden LLM begrenzt sein können. Um diese Probleme zu überwinden, stellen wir Instruction-Following Eval (IFEval) für große Sprachmodelle vor. IFEval ist ein einfaches und leicht reproduzierbares Evaluationsbenchmark. Es konzentriert sich auf eine Reihe von „verifizierbaren Anweisungen“, wie zum Beispiel „in mehr als 400 Wörtern schreiben“ und „das Schlüsselwort KI mindestens 3 Mal erwähnen“. Wir haben 25 Arten solcher verifizierbaren Anweisungen identifiziert und etwa 500 Prompts erstellt, wobei jeder Prompt eine oder mehrere verifizierbare Anweisungen enthält. Wir präsentieren die Evaluierungsergebnisse zweier weit verbreiteter LLMs auf dem Markt. Unser Code und unsere Daten sind unter https://github.com/google-research/google-research/tree/master/instruction_following_eval abrufbar.