HyperAIHyperAI

Command Palette

Search for a command to run...

Text-Einbettungen durch schwach überwachtes kontrastives Vortraining

Liang Wang; Nan Yang; Xiaolong Huang; Binxing Jiao; Linjun Yang; Daxin Jiang; Rangan Majumder; Furu Wei

Zusammenfassung

Dieses Papier stellt E5 vor, eine Familie von textbasierten Vektordarstellungen (Text Embeddings), die den aktuellen Stand der Technik darstellen und sich gut auf eine Vielzahl von Aufgaben übertragen lassen. Das Modell wird mit schwachen Überwachungssignalen aus unserem kuratierten, groß angelegten Textpaardatensatz (CCPairs) kontrastiv trainiert. E5 kann direkt als allgemeines Vektordarstellungsmodell für jede Aufgabe eingesetzt werden, die eine einvektorige Darstellung von Texten erfordert, wie zum Beispiel Retrieval, Clustering und Klassifizierung, wobei es sowohl in zero-shot- als auch in feinabgestimmten Szenarien starke Leistungen erzielt. Wir führen umfangreiche Evaluierungen an 56 Datensätzen aus den Benchmarks BEIR und MTEB durch. Für zero-shot-Szenarien ist E5 das erste Modell, das den starken BM25-Basislinie im BEIR-Retrieval-Benchmark ohne Verwendung etikettierter Daten übertrifft. Bei feinabgestimmtem Einsatz erreicht E5 die besten Ergebnisse im MTEB-Benchmark, indem es existierende Vektordarstellungsmodelle mit 40-mal mehr Parametern schlägt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp