HyperAIHyperAI

Command Palette

Search for a command to run...

MTEB : Massive Text Embedding Benchmark

Niklas Muennighoff Nouamane Tazi Loïc Magne Nils Reimers

Résumé

Les embeddings de texte sont généralement évalués sur un petit ensemble de jeux de données provenant d'une seule tâche, ne couvrant pas l'ensemble de leurs applications potentielles à d'autres tâches. Il n'est pas clair si les embeddings de pointe en matière de similarité sémantique entre textes (STS) peuvent être également efficacement appliqués à d'autres tâches telles que le regroupement (clustering) ou le réajustement de classement (reranking). Ce manque de clarté rend difficile le suivi des progrès dans le domaine, car de nouveaux modèles sont constamment proposés sans évaluation adéquate. Pour résoudre ce problème, nous introduisons le Massive Text Embedding Benchmark (MTEB). MTEB couvre 8 tâches d'embedding, regroupant au total 58 jeux de données et 112 langues. Grâce à l'évaluation de 33 modèles sur MTEB, nous établissons le benchmark le plus complet sur les embeddings de texte à ce jour. Nous constatons qu'aucune méthode d'embedding de texte particulière ne domine sur l'ensemble des tâches. Cela suggère que le domaine n'a pas encore atteint une convergence vers une méthode universelle d'embedding de texte, ni ne l'a suffisamment échelonnée pour offrir des résultats d'état de l'art sur toutes les tâches d'embedding. MTEB est accompagné d'un code open source et d'une classement public disponible à l'adresse suivante : https://github.com/embeddings-benchmark/mteb.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp