Intégrations de texte et de code par pré-entraînement contrastif

Les embeddings de texte constituent des caractéristiques utiles dans de nombreuses applications, telles que la recherche sémantique et le calcul de similarité entre textes. Les travaux antérieurs ont généralement entraîné des modèles spécifiquement conçus pour diverses applications, variant selon le choix des jeux de données, l’objectif d’entraînement et l’architecture du modèle. Dans ce travail, nous démontrons qu’un pré-entraînement contrastif sur des données non étiquetées à grande échelle conduit à des représentations vectorielles de haute qualité pour le texte et le code. Les mêmes embeddings de texte non supervisés, qui atteignent de nouveaux résultats d’état de l’art dans des tâches de classification par sondage linéaire, montrent également des capacités impressionnantes en recherche sémantique, et parfois même une performance compétitive par rapport à des modèles ajustés par fine-tuning. En moyenne sur 7 tâches de classification par sondage linéaire, notre meilleur modèle non supervisé obtient une amélioration relative de 4 % et 1,8 % par rapport aux meilleurs modèles précédents, respectivement pour les embeddings de texte non supervisés et supervisés. Lorsqu’évalués sur des tâches de recherche sémantique à grande échelle, ces mêmes embeddings de texte atteignent une amélioration relative de 23,4 %, 14,7 % et 10,6 % par rapport aux meilleurs méthodes non supervisées précédentes sur les benchmarks MSMARCO, Natural Questions et TriviaQA, respectivement. De manière similaire aux embeddings de texte, nous entraînons des modèles d’embeddings de code sur des paires (texte, code), obtenant ainsi une amélioration relative de 20,8 % par rapport au meilleur travail antérieur en recherche de code.