11일 전

LLM-기반 평가자에 대한 MT-Bench 및 Chatbot Arena를 활용한 평가

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
LLM-기반 평가자에 대한 MT-Bench 및 Chatbot Arena를 활용한 평가
초록

대규모 언어 모델(LLM) 기반 챗 어시스턴트의 평가는 그들의 광범위한 능력과 기존 벤치마크가 인간 선호도를 측정하는 데 부족함을 이유로 어렵다. 이를 해결하기 위해, 우리는 더 개방적인 질문에 대해 강력한 LLM을 심사자로 활용하여 이러한 모델을 평가하는 방안을 탐구한다. 본 연구에서는 LLM을 심사자로 사용할 때 발생하는 위치 편향, 과도한 서술, 자기 강화 편향 및 제한된 추론 능력 등의 한계를 분석하고, 일부 문제를 완화하기 위한 해결 방안을 제시한다. 이후, 두 가지 새로운 벤치마크인 MT-bench(다단계 질문 세트)와 Chatbot Arena(대규모 사용자 참여형 대결 플랫폼)를 도입하여 LLM 심사자와 인간 선호도 간의 일치도를 검증한다. 실험 결과, GPT-4와 같은 강력한 LLM 심사자는 통제된 환경과 대규모 사용자 참여 데이터 모두에서 인간 선호도와 매우 유사한 결과를 보이며, 일치도가 80% 이상을 달성했다. 이는 인간 간의 일치도 수준과 동일한 수준이다. 따라서 LLM을 심사자로 활용하는 방식은 인간 선호도를 보다 비용 효율적이고 설명 가능한 방식으로 근사할 수 있는 확장 가능한 방법임을 입증한다. 또한, LLaMA 및 Vicuna의 여러 변형 모델을 평가함으로써 제안한 벤치마크와 기존 벤치마크 간의 상호보완적 관계를 확인하였다. MT-bench 질문 세트, 3,000명의 전문가 투표, 3만 건의 인간 선호도를 반영한 대화 데이터는 모두 공개되어 있으며, https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge 에서 확인할 수 있다.