HyperAIHyperAI

Command Palette

Search for a command to run...

Text- und Code-Embeddings durch kontrastives Vortrainieren

Zusammenfassung

Text-Embeddings sind in vielen Anwendungen nützliche Merkmale, beispielsweise bei der semantischen Suche und der Berechnung der Textähnlichkeit. Bisherige Ansätze trainieren typischerweise für unterschiedliche Einsatzszenarien maßgeschneiderte Modelle, die sich in der Datensatzwahl, dem Trainingsziel und der Modellarchitektur unterscheiden. In dieser Arbeit zeigen wir, dass eine kontrastive Vortrainingsstrategie auf großskaligen, unsupervisierten Daten zu hochwertigen Vektorrepräsentationen von Text und Code führt. Die gleichen unsupervisierten Text-Embeddings, die bei der linearen Untersuchung (linear-probe classification) neue SOTA-Ergebnisse erzielen, demonstrieren außerdem beeindruckende Fähigkeiten in der semantischen Suche und erzielen manchmal sogar Ergebnisse, die mit nachträglich feinabgestimmten Modellen konkurrieren können. Bei der Durchschnittsgenauigkeit der linearen Untersuchung über sieben Aufgaben erreicht unser bestes unsupervisiertes Modell eine relative Verbesserung von 4 % gegenüber dem vorherigen besten unsupervisierten und von 1,8 % gegenüber dem vorherigen besten supervisierten Text-Embedding-Modell. Bei der Bewertung auf großen semantischen Suchbenchmarks erreicht dasselbe Embedding eine relative Verbesserung von 23,4 %, 14,7 % und 10,6 % gegenüber den vorherigen besten unsupervisierten Ansätzen auf den Benchmarks MSMARCO, Natural Questions und TriviaQA. Ebenso wie bei Text-Embeddings trainieren wir Code-Embedding-Modelle auf (Text, Code)-Paaren und erreichen hierbei eine relative Verbesserung von 20,8 % gegenüber der vorherigen besten Arbeit im Bereich Code-Suche.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp