HyperAIHyperAI
il y a 11 jours

Évaluer le jugement des LLM comme juge à l’aide de MT-Bench et Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
Évaluer le jugement des LLM comme juge à l’aide de MT-Bench et Chatbot Arena
Résumé

L’évaluation des assistants conversationnels basés sur les grands modèles linguistiques (LLM) est complexe en raison de leurs capacités étendues et de l’insuffisance des benchmarks existants pour mesurer les préférences humaines. Pour remédier à ce problème, nous explorons l’utilisation de LLM puissants comme juges pour évaluer ces modèles sur des questions plus ouvertes. Nous examinons les usages et les limites du « LLM comme juge », notamment les biais liés à la position, à la verbose, au self-enhancement, ainsi qu’une capacité de raisonnement limitée, et proposons des solutions pour atténuer certains de ces effets. Nous vérifions ensuite l’alignement entre les juges LLM et les préférences humaines en introduisant deux benchmarks : MT-bench, un ensemble de questions à plusieurs tours ; et Chatbot Arena, une plateforme de combat crowdsource. Nos résultats montrent que des juges LLM puissants, comme GPT-4, peuvent correspondre aussi bien aux préférences humaines contrôlées qu’aux préférences crowdsource, atteignant un taux de concordance supérieur à 80 %, soit un niveau de cohérence équivalent à celui observé entre humains. Ainsi, le modèle « LLM comme juge » constitue une approche évolutif et explicite pour approximer les préférences humaines, qui autrement seraient très coûteuses à obtenir. En outre, nous démontrons que notre benchmark et les benchmarks traditionnels se complètent mutuellement en évaluant plusieurs variantes de LLaMA et Vicuna. Les questions de MT-bench, les 3 000 votes d’experts et les 30 000 conversations avec préférences humaines sont désormais accessibles publiquement à l’adresse suivante : https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.

Évaluer le jugement des LLM comme juge à l’aide de MT-Bench et Chatbot Arena | Articles de recherche récents | HyperAI