Command Palette
Search for a command to run...
SAGE : Un benchmark réaliste pour la compréhension sémantique
Samarth Goel Reagan J. Lee Kannan Ramchandran

Résumé
Alors que les grands modèles linguistiques (LLM) atteignent des performances solides sur les benchmarks traditionnels, il existe un besoin urgent de cadres d’évaluation plus exigeants, capables d’explorer des aspects plus profonds de la compréhension sémantique. Nous introduisons SAGE (Semantic Alignment & Generalization Evaluation), un benchmark rigoureux conçu pour évaluer à la fois les modèles d’embedding et les métriques de similarité sur cinq catégories : alignement avec les préférences humaines, robustesse aux transformations, sensibilité à l’information, performance en regroupement (clustering) et robustesse en récupération d’information. Contrairement aux benchmarks existants, qui se concentrent sur des capacités isolées, SAGE évalue la compréhension sémantique à travers des conditions adverses, des transformations bruitées et des tâches d’évaluation nuancées fondées sur le jugement humain, sur plus de 30 jeux de données. Notre évaluation approfondie de 9 modèles d’embedding et de métriques classiques révèle des écarts significatifs de performance, sans qu’aucune approche ne se distingue sur l’ensemble des dimensions. Par exemple, bien que les modèles d’embedding de pointe comme text-embedding-3-large d’OpenAI dominent dans l’alignement avec les préférences humaines (0,682 contre 0,591 pour la meilleure métrique classique), ils sont largement surpassés par les métriques classiques sur les tâches de sensibilité à l’information, où la similarité de Jaccard atteint un score de 0,905, contre 0,794 pour le meilleur modèle d’embedding. SAGE met également en évidence des compromis critiques : text-embedding-3-small d’OpenAI obtient la meilleure performance en regroupement (0,483), mais présente une extrême fragilité, avec le plus faible score de robustesse (0,011). SAGE révèle ainsi des limites fondamentales des capacités actuelles de compréhension sémantique et fournit une évaluation plus réaliste de la robustesse des modèles, en vue de leur déploiement dans des environnements réels.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.