16日前

EQ-Bench:大規模言語モデル向け感情知能ベンチマーク

Samuel J. Paech
EQ-Bench:大規模言語モデル向け感情知能ベンチマーク
要約

我々は、大規模言語モデル(LLM)における感情知能(EQ)の側面を評価するための新規ベンチマーク「EQ-Bench」を紹介する。本ベンチマークでは、対話における登場人物の感情状態の強度を予測させるという手法により、LLMが複雑な感情や社会的相互作用を理解できるかどうかを評価している。このベンチマークは、広範なモデル群に対して効果的に差を識別できる。また、EQ-Benchは、MMLU(Hendrycks他、2020)のような包括的で多領域にわたるベンチマークと強い相関(r=0.97)を示しており、広義の知能の類似した側面を捉えている可能性を示唆している。本ベンチマークは、60問の英語質問を用いて、高い再現性を持つ結果を生成する。さらに、自動化されたベンチマークパイプラインのオープンソースコードを https://github.com/EQ-bench/EQ-Bench にて提供し、順位表(leaderboard)も https://eqbench.com で公開している。

EQ-Bench:大規模言語モデル向け感情知能ベンチマーク | 最新論文 | HyperAI超神経