il y a 12 jours

Intégrations de texte et de code par pré-entraînement contrastif

Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng

Voir les détails de l'article

Intégrations de texte et de code par pré-entraînement contrastif

Résumé

Les embeddings de texte constituent des caractéristiques utiles dans de nombreuses applications, telles que la recherche sémantique et le calcul de similarité entre textes. Les travaux antérieurs ont généralement entraîné des modèles spécifiquement conçus pour diverses applications, variant selon le choix des jeux de données, l’objectif d’entraînement et l’architecture du modèle. Dans ce travail, nous démontrons qu’un pré-entraînement contrastif sur des données non étiquetées à grande échelle conduit à des représentations vectorielles de haute qualité pour le texte et le code. Les mêmes embeddings de texte non supervisés, qui atteignent de nouveaux résultats d’état de l’art dans des tâches de classification par sondage linéaire, montrent également des capacités impressionnantes en recherche sémantique, et parfois même une performance compétitive par rapport à des modèles ajustés par fine-tuning. En moyenne sur 7 tâches de classification par sondage linéaire, notre meilleur modèle non supervisé obtient une amélioration relative de 4 % et 1,8 % par rapport aux meilleurs modèles précédents, respectivement pour les embeddings de texte non supervisés et supervisés. Lorsqu’évalués sur des tâches de recherche sémantique à grande échelle, ces mêmes embeddings de texte atteignent une amélioration relative de 23,4 %, 14,7 % et 10,6 % par rapport aux meilleurs méthodes non supervisées précédentes sur les benchmarks MSMARCO, Natural Questions et TriviaQA, respectivement. De manière similaire aux embeddings de texte, nous entraînons des modèles d’embeddings de code sur des paires (texte, code), obtenant ainsi une amélioration relative de 20,8 % par rapport au meilleur travail antérieur en recherche de code.