Text-Einbettungen durch schwach überwachtes kontrastives Vortraining

Dieses Papier stellt E5 vor, eine Familie von textbasierten Vektordarstellungen (Text Embeddings), die den aktuellen Stand der Technik darstellen und sich gut auf eine Vielzahl von Aufgaben übertragen lassen. Das Modell wird mit schwachen Überwachungssignalen aus unserem kuratierten, groß angelegten Textpaardatensatz (CCPairs) kontrastiv trainiert. E5 kann direkt als allgemeines Vektordarstellungsmodell für jede Aufgabe eingesetzt werden, die eine einvektorige Darstellung von Texten erfordert, wie zum Beispiel Retrieval, Clustering und Klassifizierung, wobei es sowohl in zero-shot- als auch in feinabgestimmten Szenarien starke Leistungen erzielt. Wir führen umfangreiche Evaluierungen an 56 Datensätzen aus den Benchmarks BEIR und MTEB durch. Für zero-shot-Szenarien ist E5 das erste Modell, das den starken BM25-Basislinie im BEIR-Retrieval-Benchmark ohne Verwendung etikettierter Daten übertrifft. Bei feinabgestimmtem Einsatz erreicht E5 die besten Ergebnisse im MTEB-Benchmark, indem es existierende Vektordarstellungsmodelle mit 40-mal mehr Parametern schlägt.