Embeddings de texte optimisés pour AnglE

L’embedding de texte de haute qualité joue un rôle fondamental dans l’amélioration des tâches de similarité sémantique entre textes (STS), qui constituent des composants essentiels dans les applications des grands modèles linguistiques (LLM). Toutefois, un défi courant auxquels les modèles d’embedding de texte actuels sont confrontés réside dans le problème de l’effacement des gradients, principalement dû à leur dépendance à la fonction cosinus dans l’objectif d’optimisation, qui présente des zones de saturation. Pour résoudre ce problème, cet article propose un nouveau modèle d’embedding de texte optimisé par angle, nommé AnglE. L’idée centrale d’AnglE consiste à introduire une optimisation basée sur les angles dans un espace complexe. Cette approche novatrice permet efficacement de réduire les effets néfastes des zones de saturation de la fonction cosinus, qui peuvent entraver la propagation des gradients et nuire aux processus d’optimisation. Afin de mener une évaluation complète des performances en STS, nous avons mené des expériences sur des jeux de données existants de STS à court texte, ainsi que sur un nouveau jeu de données de STS à long texte collecté à partir des issues GitHub. En outre, nous avons examiné des scénarios de STS spécifiques à un domaine, dans des conditions de données étiquetées limitées, et exploré la manière dont AnglE fonctionne avec des données annotées par des LLM. Des expérimentations étendues ont été réalisées sur diverses tâches, incluant la STS à court texte, la STS à long texte et la STS spécifique à un domaine. Les résultats montrent qu’AnglE surpasser les modèles d’État-de-l’Art (SOTA) en STS qui ignorent les zones de saturation de la fonction cosinus. Ces découvertes démontrent la capacité d’AnglE à générer des embeddings de texte de haute qualité, ainsi que l’utilité de l’optimisation par angle dans les tâches de similarité sémantique entre textes.