HyperAIHyperAI

Command Palette

Search for a command to run...

EQ-Bench : Un benchmark pour l'intelligence émotionnelle des grands modèles linguistiques

Samuel J. Paech

Résumé

Nous présentons EQ-Bench, un nouveau benchmark conçu pour évaluer divers aspects de l’intelligence émotionnelle dans les grands modèles linguistiques (LLM). Nous évaluons la capacité des LLM à comprendre des émotions complexes et les interactions sociales en leur demandant de prédire l’intensité des états émotionnels des personnages dans un dialogue. Ce benchmark permet de distinguer efficacement une large gamme de modèles. Nous constatons que EQ-Bench présente une corrélation forte avec des benchmarks complets et multidomaines, tels que MMLU (Hendrycks et al., 2020) (r = 0,97), ce qui suggère que nous capturons des aspects similaires de l’intelligence générale. Notre benchmark produit des résultats hautement reproductibles à l’aide d’un ensemble de 60 questions en langue anglaise. Nous mettons également à disposition un code open-source pour un pipeline d’évaluation automatisé à l’adresse suivante : https://github.com/EQ-bench/EQ-Bench, ainsi qu’un classement public à l’adresse : https://eqbench.com.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp