HyperAIHyperAI

Command Palette

Search for a command to run...

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Zusammenfassung

Die Bewertung von großen Sprachmodellen (Large Language Models, LLMs) basierenden Chat-Assistenten ist aufgrund ihrer umfassenden Fähigkeiten und der Unzulänglichkeit bestehender Benchmarks zur Messung menschlicher Präferenzen herausfordernd. Um diesem Problem zu begegnen, untersuchen wir die Verwendung starker LLMs als Urteilsinstanzen zur Bewertung dieser Modelle bei offeneren Fragen. Wir analysieren die Anwendung und Grenzen des Ansatzes „LLM als Urteilssprecher“, einschließlich Positionseffekte, Übertriebene Ausführlichkeit (Verbosity), Selbstverbesserungsneigung sowie begrenzter Schlussfolgerungsfähigkeit, und schlagen Lösungsansätze zur Minderung einiger dieser Probleme vor. Anschließend überprüfen wir die Übereinstimmung zwischen LLM-Urteilen und menschlichen Präferenzen durch die Einführung zweier Benchmarks: MT-bench, einer Multi-Turn-Frage-Sammlung, sowie Chatbot Arena, einer von der Gemeinschaft gesponserten Wettkampfplattform. Unsere Ergebnisse zeigen, dass starke LLM-Urteilsinstanzen wie GPT-4 sowohl kontrollierte als auch crowdsourced menschliche Präferenzen gut widerspiegeln können, wobei die Übereinstimmungsrate über 80 % liegt – auf demselben Niveau wie zwischen menschlichen Urteilen. Somit stellt der Ansatz „LLM als Urteilssprecher“ eine skalierbare und nachvollziehbare Methode dar, um menschliche Präferenzen zu approximieren, die ansonsten äußerst kostspielig zu erheben wären. Darüber hinaus zeigen wir, dass unsere Benchmark und traditionelle Benchmarks sich gegenseitig ergänzen, indem wir mehrere Varianten von LLaMA und Vicuna evaluieren. Die MT-bench-Fragen, 3.000 Expertenstimmen und 30.000 Gespräche mit menschlichen Präferenzen sind öffentlich verfügbar unter https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp