HyperAIHyperAI

Command Palette

Search for a command to run...

Anweisungsbefolgungsevaluation für große Sprachmodelle

Jeffrey Zhou Tianjian Lu Swaroop Mishra Siddhartha Brahma Sujoy Basu Yi Luan Denny Zhou Le Hou

Zusammenfassung

Eine Kernfunktion großer Sprachmodelle (Large Language Models, LLMs) besteht darin, natürlichsprachliche Anweisungen zu befolgen. Die Bewertung dieser Fähigkeiten ist jedoch nicht standardisiert: Menschenbasierte Bewertungen sind teuer, langsam und nicht objektiv reproduzierbar, während LLM-basierte automatische Bewertungen potenziell verzerrt oder durch die Leistungsfähigkeit des evaluienden LLM begrenzt sein können. Um diese Probleme zu überwinden, stellen wir Instruction-Following Eval (IFEval) für große Sprachmodelle vor. IFEval ist ein einfaches und leicht reproduzierbares Evaluationsbenchmark. Es konzentriert sich auf eine Reihe von „verifizierbaren Anweisungen“, wie zum Beispiel „in mehr als 400 Wörtern schreiben“ und „das Schlüsselwort KI mindestens 3 Mal erwähnen“. Wir haben 25 Arten solcher verifizierbaren Anweisungen identifiziert und etwa 500 Prompts erstellt, wobei jeder Prompt eine oder mehrere verifizierbare Anweisungen enthält. Wir präsentieren die Evaluierungsergebnisse zweier weit verbreiteter LLMs auf dem Markt. Unser Code und unsere Daten sind unter https://github.com/google-research/google-research/tree/master/instruction_following_eval abrufbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp