11 天前
基于MT-Bench与Chatbot Arena的LLM-as-a-Judge评估
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica

摘要
由于大语言模型(LLM)具备广泛的能力,而现有评估基准在衡量人类偏好方面存在不足,因此对基于大语言模型的聊天助手进行评估极具挑战性。为应对这一问题,我们探索利用强语言模型作为评判者,对这些模型在更具开放性的问题上的表现进行评估。我们系统分析了“LLM作为评判者”(LLM-as-a-judge)的使用方式及其局限性,包括位置偏差(position bias)、冗长性偏差(verbosity bias)、自我增强偏差(self-enhancement bias)以及推理能力有限等问题,并提出了相应的缓解策略。随后,我们通过引入两个新基准来验证LLM评判者与人类偏好之间的一致性:MT-bench——一个包含多轮对话的问答数据集;以及Chatbot Arena——一个基于众包的模型对抗评测平台。实验结果表明,像GPT-4这样的强LLM评判者能够很好地匹配受控环境和众包环境下的人类偏好,达成超过80%的一致性,其表现水平与人类之间的共识相当。因此,LLM作为评判者是一种可扩展且具备可解释性的方法,能够有效近似原本获取成本极高的真实人类偏好。此外,我们进一步展示了本研究所提出的基准与传统基准之间的互补性,通过在多个LLaMA和Vicuna变体上进行评估得以验证。目前,MT-bench中的3,000份专家投票、30,000条带有真实人类偏好的对话数据均已公开,可访问于:https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge。