HyperAIHyperAI
il y a 11 jours

EQ-Bench : Un benchmark pour l'intelligence émotionnelle des grands modèles linguistiques

Samuel J. Paech
EQ-Bench : Un benchmark pour l'intelligence émotionnelle des grands modèles linguistiques
Résumé

Nous présentons EQ-Bench, un nouveau benchmark conçu pour évaluer divers aspects de l’intelligence émotionnelle dans les grands modèles linguistiques (LLM). Nous évaluons la capacité des LLM à comprendre des émotions complexes et les interactions sociales en leur demandant de prédire l’intensité des états émotionnels des personnages dans un dialogue. Ce benchmark permet de distinguer efficacement une large gamme de modèles. Nous constatons que EQ-Bench présente une corrélation forte avec des benchmarks complets et multidomaines, tels que MMLU (Hendrycks et al., 2020) (r = 0,97), ce qui suggère que nous capturons des aspects similaires de l’intelligence générale. Notre benchmark produit des résultats hautement reproductibles à l’aide d’un ensemble de 60 questions en langue anglaise. Nous mettons également à disposition un code open-source pour un pipeline d’évaluation automatisé à l’adresse suivante : https://github.com/EQ-bench/EQ-Bench, ainsi qu’un classement public à l’adresse : https://eqbench.com.

EQ-Bench : Un benchmark pour l'intelligence émotionnelle des grands modèles linguistiques | Articles de recherche récents | HyperAI