vor 6 Monaten

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing

Zusammenfassung

Die Bewertung von großen Sprachmodellen (Large Language Models, LLMs) basierenden Chat-Assistenten ist aufgrund ihrer umfassenden Fähigkeiten und der Unzulänglichkeit bestehender Benchmarks zur Messung menschlicher Präferenzen herausfordernd. Um diesem Problem zu begegnen, untersuchen wir die Verwendung starker LLMs als Urteilsinstanzen zur Bewertung dieser Modelle bei offeneren Fragen. Wir analysieren die Anwendung und Grenzen des Ansatzes „LLM als Urteilssprecher“, einschließlich Positionseffekte, Übertriebene Ausführlichkeit (Verbosity), Selbstverbesserungsneigung sowie begrenzter Schlussfolgerungsfähigkeit, und schlagen Lösungsansätze zur Minderung einiger dieser Probleme vor. Anschließend überprüfen wir die Übereinstimmung zwischen LLM-Urteilen und menschlichen Präferenzen durch die Einführung zweier Benchmarks: MT-bench, einer Multi-Turn-Frage-Sammlung, sowie Chatbot Arena, einer von der Gemeinschaft gesponserten Wettkampfplattform. Unsere Ergebnisse zeigen, dass starke LLM-Urteilsinstanzen wie GPT-4 sowohl kontrollierte als auch crowdsourced menschliche Präferenzen gut widerspiegeln können, wobei die Übereinstimmungsrate über 80 % liegt – auf demselben Niveau wie zwischen menschlichen Urteilen. Somit stellt der Ansatz „LLM als Urteilssprecher“ eine skalierbare und nachvollziehbare Methode dar, um menschliche Präferenzen zu approximieren, die ansonsten äußerst kostspielig zu erheben wären. Darüber hinaus zeigen wir, dass unsere Benchmark und traditionelle Benchmarks sich gegenseitig ergänzen, indem wir mehrere Varianten von LLaMA und Vicuna evaluieren. Die MT-bench-Fragen, 3.000 Expertenstimmen und 30.000 Gespräche mit menschlichen Präferenzen sind öffentlich verfügbar unter https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Benchmarks

Präferenzmodellierung

Reasoning

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Benchmarks

Präferenzmodellierung

Reasoning

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Beurteilung von LLM-as-a-Judge mit MT-Bench und Chatbot Arena

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing3 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing

Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu Yonghao Zhuang Zi Lin Zhuohan Li Dacheng Li Eric P. Xing