HyperAIHyperAI
vor 11 Tagen

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena
Abstract

Die Bewertung von großen Sprachmodellen (Large Language Models, LLMs) basierenden Chat-Assistenten ist aufgrund ihrer umfassenden Fähigkeiten und der Unzulänglichkeit bestehender Benchmarks zur Messung menschlicher Präferenzen herausfordernd. Um diesem Problem zu begegnen, untersuchen wir die Verwendung starker LLMs als Urteilsinstanzen zur Bewertung dieser Modelle bei offeneren Fragen. Wir analysieren die Anwendung und Grenzen des Ansatzes „LLM als Urteilssprecher“, einschließlich Positionseffekte, Übertriebene Ausführlichkeit (Verbosity), Selbstverbesserungsneigung sowie begrenzter Schlussfolgerungsfähigkeit, und schlagen Lösungsansätze zur Minderung einiger dieser Probleme vor. Anschließend überprüfen wir die Übereinstimmung zwischen LLM-Urteilen und menschlichen Präferenzen durch die Einführung zweier Benchmarks: MT-bench, einer Multi-Turn-Frage-Sammlung, sowie Chatbot Arena, einer von der Gemeinschaft gesponserten Wettkampfplattform. Unsere Ergebnisse zeigen, dass starke LLM-Urteilsinstanzen wie GPT-4 sowohl kontrollierte als auch crowdsourced menschliche Präferenzen gut widerspiegeln können, wobei die Übereinstimmungsrate über 80 % liegt – auf demselben Niveau wie zwischen menschlichen Urteilen. Somit stellt der Ansatz „LLM als Urteilssprecher“ eine skalierbare und nachvollziehbare Methode dar, um menschliche Präferenzen zu approximieren, die ansonsten äußerst kostspielig zu erheben wären. Darüber hinaus zeigen wir, dass unsere Benchmark und traditionelle Benchmarks sich gegenseitig ergänzen, indem wir mehrere Varianten von LLaMA und Vicuna evaluieren. Die MT-bench-Fragen, 3.000 Expertenstimmen und 30.000 Gespräche mit menschlichen Präferenzen sind öffentlich verfügbar unter https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena | Neueste Forschungsarbeiten | HyperAI