HyperAIHyperAI
vor 11 Tagen

EQ-Bench: Ein emotionaler Intelligenz-Test für große Sprachmodelle

Samuel J. Paech
EQ-Bench: Ein emotionaler Intelligenz-Test für große Sprachmodelle
Abstract

Wir stellen EQ-Bench vor, einen neuartigen Benchmark, der entwickelt wurde, um Aspekte der emotionalen Intelligenz in großen Sprachmodellen (Large Language Models, LLMs) zu evaluieren. Wir untersuchen die Fähigkeit von LLMs, komplexe Emotionen und soziale Interaktionen zu verstehen, indem wir sie bitten, die Intensität emotionaler Zustände von Charakteren in Dialogen vorherzusagen. Der Benchmark ist in der Lage, eine breite Palette von Modellen effektiv zu unterscheiden. Wir stellen fest, dass EQ-Bench eine starke Korrelation mit umfassenden, mehrdomänenorientierten Benchmarks wie MMLU (Hendrycks et al., 2020) aufweist (r = 0,97), was darauf hindeutet, dass wir möglicherweise ähnliche Aspekte allgemeiner Intelligenz erfassen. Unser Benchmark liefert hochreproduzierbare Ergebnisse anhand einer Sammlung von 60 Fragen in englischer Sprache. Zudem stellen wir den Quellcode für eine automatisierte Benchmarking-Pipeline unter https://github.com/EQ-bench/EQ-Bench sowie eine Leaderboard-Plattform unter https://eqbench.com öffentlich zur Verfügung.

EQ-Bench: Ein emotionaler Intelligenz-Test für große Sprachmodelle | Neueste Forschungsarbeiten | HyperAI