HyperAIHyperAI

Command Palette

Search for a command to run...

Intégrations de texte et de code par pré-entraînement contrastif

Résumé

Les embeddings de texte constituent des caractéristiques utiles dans de nombreuses applications, telles que la recherche sémantique et le calcul de similarité entre textes. Les travaux antérieurs ont généralement entraîné des modèles spécifiquement conçus pour diverses applications, variant selon le choix des jeux de données, l’objectif d’entraînement et l’architecture du modèle. Dans ce travail, nous démontrons qu’un pré-entraînement contrastif sur des données non étiquetées à grande échelle conduit à des représentations vectorielles de haute qualité pour le texte et le code. Les mêmes embeddings de texte non supervisés, qui atteignent de nouveaux résultats d’état de l’art dans des tâches de classification par sondage linéaire, montrent également des capacités impressionnantes en recherche sémantique, et parfois même une performance compétitive par rapport à des modèles ajustés par fine-tuning. En moyenne sur 7 tâches de classification par sondage linéaire, notre meilleur modèle non supervisé obtient une amélioration relative de 4 % et 1,8 % par rapport aux meilleurs modèles précédents, respectivement pour les embeddings de texte non supervisés et supervisés. Lorsqu’évalués sur des tâches de recherche sémantique à grande échelle, ces mêmes embeddings de texte atteignent une amélioration relative de 23,4 %, 14,7 % et 10,6 % par rapport aux meilleurs méthodes non supervisées précédentes sur les benchmarks MSMARCO, Natural Questions et TriviaQA, respectivement. De manière similaire aux embeddings de texte, nous entraînons des modèles d’embeddings de code sur des paires (texte, code), obtenant ainsi une amélioration relative de 20,8 % par rapport au meilleur travail antérieur en recherche de code.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp