Text- und Code-Embeddings durch kontrastives Vortrainieren

Text-Embeddings sind in vielen Anwendungen nützliche Merkmale, beispielsweise bei der semantischen Suche und der Berechnung der Textähnlichkeit. Bisherige Ansätze trainieren typischerweise für unterschiedliche Einsatzszenarien maßgeschneiderte Modelle, die sich in der Datensatzwahl, dem Trainingsziel und der Modellarchitektur unterscheiden. In dieser Arbeit zeigen wir, dass eine kontrastive Vortrainingsstrategie auf großskaligen, unsupervisierten Daten zu hochwertigen Vektorrepräsentationen von Text und Code führt. Die gleichen unsupervisierten Text-Embeddings, die bei der linearen Untersuchung (linear-probe classification) neue SOTA-Ergebnisse erzielen, demonstrieren außerdem beeindruckende Fähigkeiten in der semantischen Suche und erzielen manchmal sogar Ergebnisse, die mit nachträglich feinabgestimmten Modellen konkurrieren können. Bei der Durchschnittsgenauigkeit der linearen Untersuchung über sieben Aufgaben erreicht unser bestes unsupervisiertes Modell eine relative Verbesserung von 4 % gegenüber dem vorherigen besten unsupervisierten und von 1,8 % gegenüber dem vorherigen besten supervisierten Text-Embedding-Modell. Bei der Bewertung auf großen semantischen Suchbenchmarks erreicht dasselbe Embedding eine relative Verbesserung von 23,4 %, 14,7 % und 10,6 % gegenüber den vorherigen besten unsupervisierten Ansätzen auf den Benchmarks MSMARCO, Natural Questions und TriviaQA. Ebenso wie bei Text-Embeddings trainieren wir Code-Embedding-Modelle auf (Text, Code)-Paaren und erreichen hierbei eine relative Verbesserung von 20,8 % gegenüber der vorherigen besten Arbeit im Bereich Code-Suche.