HyperAIHyperAI
il y a 11 jours

L’agrégation des embeddings de phrases à l’aide de grands modèles linguistiques

Ting Jiang, Shaohan Huang, Zhongzhi Luan, Deqing Wang, Fuzhen Zhuang
L’agrégation des embeddings de phrases à l’aide de grands modèles linguistiques
Résumé

Les grands modèles linguistiques (LLM) ont récemment suscité un intérêt considérable. Grâce à l’apprentissage in-context, les LLM atteignent des résultats remarquables dans diverses tâches de traitement du langage naturel. Toutefois, leur application aux embeddings de phrases reste un domaine de recherche en cours. Dans ce travail, nous proposons une méthode fondée sur l’apprentissage in-context visant à améliorer les performances des embeddings de phrases. Notre approche consiste à adapter la méthode précédente basée sur les prompts pour les modèles autoregressifs, à construire un ensemble de démonstrations permettant aux LLM de réaliser un apprentissage in-context, et à échelonner les modèles LLM à différentes tailles. À travers des expérimentations étendues, l’apprentissage in-context permet aux LLM de générer des embeddings de phrases de haute qualité sans aucune fine-tuning. Il permet aux modèles d’atteindre des performances comparables aux méthodes actuelles d’apprentissage contrastif. En échelonnant la taille du modèle, nous constatons que l’augmentation à plus de dizaines de milliards de paramètres nuit aux performances sur les tâches de similarité sémantique entre textes (STS). Toutefois, le modèle le plus volumineux surpasse tous ses prédécesseurs et établit un nouveau record d’état de l’art sur les tâches de transfert. Nous avons également finement ajusté les LLM à l’aide de l’approche actuelle d’apprentissage contrastif : le modèle OPT de 2,7 milliards de paramètres, intégrant notre méthode basée sur les prompts, dépasse les performances du modèle ST5 de 4,8 milliards de paramètres, atteignant ainsi un nouveau record d’état de l’art sur les tâches STS. Notre code est disponible à l’adresse suivante : https://github.com/kongds/scaling_sentemb.

L’agrégation des embeddings de phrases à l’aide de grands modèles linguistiques | Articles de recherche récents | HyperAI