MTEB : Massive Text Embedding Benchmark

Les embeddings de texte sont généralement évalués sur un petit ensemble de jeux de données provenant d'une seule tâche, ne couvrant pas l'ensemble de leurs applications potentielles à d'autres tâches. Il n'est pas clair si les embeddings de pointe en matière de similarité sémantique entre textes (STS) peuvent être également efficacement appliqués à d'autres tâches telles que le regroupement (clustering) ou le réajustement de classement (reranking). Ce manque de clarté rend difficile le suivi des progrès dans le domaine, car de nouveaux modèles sont constamment proposés sans évaluation adéquate. Pour résoudre ce problème, nous introduisons le Massive Text Embedding Benchmark (MTEB). MTEB couvre 8 tâches d'embedding, regroupant au total 58 jeux de données et 112 langues. Grâce à l'évaluation de 33 modèles sur MTEB, nous établissons le benchmark le plus complet sur les embeddings de texte à ce jour. Nous constatons qu'aucune méthode d'embedding de texte particulière ne domine sur l'ensemble des tâches. Cela suggère que le domaine n'a pas encore atteint une convergence vers une méthode universelle d'embedding de texte, ni ne l'a suffisamment échelonnée pour offrir des résultats d'état de l'art sur toutes les tâches d'embedding. MTEB est accompagné d'un code open source et d'une classement public disponible à l'adresse suivante : https://github.com/embeddings-benchmark/mteb.