
초록
우리는 대규모 언어 모델(Large Language Models, LLMs)의 정서지능(emotional intelligence)을 평가하기 위해 설계된 새로운 벤치마크인 EQ-Bench를 소개한다. 본 벤치마크는 대화 속 등장인물의 정서 상태의 강도를 예측하도록 LLMs에 질문함으로써, 모델이 복잡한 정서와 사회적 상호작용을 이해하는 능력을 평가한다. 이 벤치마크는 다양한 모델 간의 차이를 효과적으로 구분할 수 있으며, MMLU(Hendrycks 등, 2020)와 같은 포괄적인 다분야 벤치마크와 강한 상관관계(r=0.97)를 보이며, 광범위한 지능의 유사한 측면을 측정하고 있음을 시사한다. EQ-Bench는 60개의 영어 질문 세트를 사용하여 높은 재현성의 결과를 도출한다. 또한, 자동화된 벤치마크 파이프라인을 위한 오픈소스 코드는 https://github.com/EQ-bench/EQ-Bench 에서, 리더보드는 https://eqbench.com 에서 제공한다.