11日前
LLM-as-a-Judgeの評価:MT-BenchとChatbot Arenaを用いて
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica

要約
大規模言語モデル(LLM)を基盤とするチャットアシスタントの評価は、その広範な能力と、既存のベンチマークが人間の好みを適切に測定できない点により、困難を伴う。こうした課題に対応するため、我々は、より開かれた質問に対するモデル評価に強力なLLMを「審査者」として活用するアプローチを検討した。本研究では、LLM-as-a-judge(LLMを審査者として利用する手法)の使用方法と限界——特に位置バイアス、冗長性、自己強化バイアス、および限られた推論能力——を分析し、その一部を緩和するための解決策を提案する。その後、MT-bench(複数ターンの質問セット)とChatbot Arena(クラウドソーシング型対戦プラットフォーム)という2つのベンチマークを導入することで、LLM審査者と人間の好みの一致度を検証した。その結果、GPT-4のような強力なLLM審査者は、制御された環境およびクラウドソーシングによる人間の好みの両方と良好に一致し、80%以上の一致度を達成した。これは人間同士の一致度と同等の水準であり、LLM-as-a-judgeが、非常に高コストである人間の好みを効率的かつ説明可能な形で近似するためのスケーラブルな手法であることを示している。さらに、LLaMAおよびVicunaの複数のバリエーションを評価することで、本研究で提案するベンチマークと従来のベンチマークが互いに補完し合う関係にあることを実証した。MT-benchの質問、3,000件の専門家投票、および3万件の人間好み付きの会話データは、すべてGitHubにて公開されている(https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge)。