Plongements de texte par pré-entraînement contrastif faiblement supervisé

Ce document présente E5, une famille de modèles d'embeddings textuels de pointe qui se transfèrent bien à une large gamme de tâches. Le modèle est formé de manière contrastive avec des signaux de supervision faible issus de notre jeu de données à grande échelle de paires textuelles soigneusement curatées (appelé CCPairs). E5 peut être utilisé sans difficulté comme modèle d'embedding généraliste pour toute tâche nécessitant une représentation vectorielle unique des textes, tels que la recherche, le regroupement et la classification, en obtenant des performances solides dans les configurations zéro-shot et fine-tuned. Nous menons des évaluations approfondies sur 56 jeux de données provenant des benchmarks BEIR et MTEB. Pour les configurations zéro-shot, E5 est le premier modèle à surpasser la référence robuste BM25 sur le benchmark BEIR de recherche sans utiliser aucune donnée étiquetée. Lorsqu'il est fine-tuned, E5 obtient les meilleurs résultats sur le benchmark MTEB, surpassant les modèles d'embedding existants dotés de 40 fois plus de paramètres.