MTEB: Massive Text Embedding Benchmark

Text-Embeddings werden üblicherweise anhand einer kleinen Anzahl von Datensätzen aus einer einzigen Aufgabenstellung bewertet, die deren mögliche Anwendungen auf andere Aufgaben nicht abdeckt. Unklar ist, ob state-of-the-art-Embeddings für die semantische Textähnlichkeit (STS) gleichermaßen gut auf andere Aufgaben wie Clustering oder Reranking übertragbar sind. Dies erschwert die Verfolgung von Fortschritten in der Forschung, da ständig neue Modelle vorgestellt werden, ohne dass eine angemessene Evaluation erfolgt. Um dieses Problem zu lösen, führen wir den Massive Text Embedding Benchmark (MTEB) ein. MTEB umfasst acht Embedding-Aufgaben mit insgesamt 58 Datensätzen und 112 Sprachen. Durch die Bewertung von 33 Modellen auf MTEB etablieren wir den umfassendsten Benchmark für Text-Embeddings bis dato. Wir stellen fest, dass kein einzelnes Text-Embedding-Verfahren über alle Aufgaben hinweg dominiert. Dies deutet darauf hin, dass die Forschung noch nicht zu einem universellen Text-Embedding-Verfahren gefunden hat, das ausreichend skaliert ist, um auf allen Embedding-Aufgaben state-of-the-art-Ergebnisse zu erzielen. MTEB wird mit quelloffener Codebasis und einer öffentlichen Leaderboard-Liste unter https://github.com/embeddings-benchmark/mteb bereitgestellt.