vor 12 Tagen

Text- und Code-Embeddings durch kontrastives Vortrainieren

Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng

Details der Forschungsarbeit anzeigen

Text- und Code-Embeddings durch kontrastives Vortrainieren

Abstract

Text-Embeddings sind in vielen Anwendungen nützliche Merkmale, beispielsweise bei der semantischen Suche und der Berechnung der Textähnlichkeit. Bisherige Ansätze trainieren typischerweise für unterschiedliche Einsatzszenarien maßgeschneiderte Modelle, die sich in der Datensatzwahl, dem Trainingsziel und der Modellarchitektur unterscheiden. In dieser Arbeit zeigen wir, dass eine kontrastive Vortrainingsstrategie auf großskaligen, unsupervisierten Daten zu hochwertigen Vektorrepräsentationen von Text und Code führt. Die gleichen unsupervisierten Text-Embeddings, die bei der linearen Untersuchung (linear-probe classification) neue SOTA-Ergebnisse erzielen, demonstrieren außerdem beeindruckende Fähigkeiten in der semantischen Suche und erzielen manchmal sogar Ergebnisse, die mit nachträglich feinabgestimmten Modellen konkurrieren können. Bei der Durchschnittsgenauigkeit der linearen Untersuchung über sieben Aufgaben erreicht unser bestes unsupervisiertes Modell eine relative Verbesserung von 4 % gegenüber dem vorherigen besten unsupervisierten und von 1,8 % gegenüber dem vorherigen besten supervisierten Text-Embedding-Modell. Bei der Bewertung auf großen semantischen Suchbenchmarks erreicht dasselbe Embedding eine relative Verbesserung von 23,4 %, 14,7 % und 10,6 % gegenüber den vorherigen besten unsupervisierten Ansätzen auf den Benchmarks MSMARCO, Natural Questions und TriviaQA. Ebenso wie bei Text-Embeddings trainieren wir Code-Embedding-Modelle auf (Text, Code)-Paaren und erreichen hierbei eine relative Verbesserung von 20,8 % gegenüber der vorherigen besten Arbeit im Bereich Code-Suche.