HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

SAGE : Un benchmark réaliste pour la compréhension sémantique

Samarth Goel Reagan J. Lee Kannan Ramchandran

SAGE : Un benchmark réaliste pour la compréhension sémantique

Résumé

Alors que les grands modèles linguistiques (LLM) atteignent des performances solides sur les benchmarks traditionnels, il existe un besoin urgent de cadres d’évaluation plus exigeants, capables d’explorer des aspects plus profonds de la compréhension sémantique. Nous introduisons SAGE (Semantic Alignment & Generalization Evaluation), un benchmark rigoureux conçu pour évaluer à la fois les modèles d’embedding et les métriques de similarité sur cinq catégories : alignement avec les préférences humaines, robustesse aux transformations, sensibilité à l’information, performance en regroupement (clustering) et robustesse en récupération d’information. Contrairement aux benchmarks existants, qui se concentrent sur des capacités isolées, SAGE évalue la compréhension sémantique à travers des conditions adverses, des transformations bruitées et des tâches d’évaluation nuancées fondées sur le jugement humain, sur plus de 30 jeux de données. Notre évaluation approfondie de 9 modèles d’embedding et de métriques classiques révèle des écarts significatifs de performance, sans qu’aucune approche ne se distingue sur l’ensemble des dimensions. Par exemple, bien que les modèles d’embedding de pointe comme text-embedding-3-large d’OpenAI dominent dans l’alignement avec les préférences humaines (0,682 contre 0,591 pour la meilleure métrique classique), ils sont largement surpassés par les métriques classiques sur les tâches de sensibilité à l’information, où la similarité de Jaccard atteint un score de 0,905, contre 0,794 pour le meilleur modèle d’embedding. SAGE met également en évidence des compromis critiques : text-embedding-3-small d’OpenAI obtient la meilleure performance en regroupement (0,483), mais présente une extrême fragilité, avec le plus faible score de robustesse (0,011). SAGE révèle ainsi des limites fondamentales des capacités actuelles de compréhension sémantique et fournit une évaluation plus réaliste de la robustesse des modèles, en vue de leur déploiement dans des environnements réels.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
SAGE : Un benchmark réaliste pour la compréhension sémantique | Articles de recherche | HyperAI