il y a 11 jours

Une méthode non supervisée d’encodage de phrases par maximisation de l’information mutuelle

Yan Zhang, Ruidan He, Zuozhu Liu, Kwan Hui Lim, Lidong Bing

Résumé

BERT se révèle inefficace pour les tâches impliquant des paires de phrases, telles que le regroupement (clustering) ou la recherche sémantique, car il nécessite d’évaluer un nombre combinatoire de paires de phrases, ce qui s’avère très coûteux en temps. Sentence BERT (SBERT) a tenté de résoudre ce problème en apprenant des représentations sémantiquement significatives pour des phrases isolées, permettant ainsi une comparaison de similarité plus aisée. Toutefois, SBERT est entraîné sur des corpus comprenant des paires de phrases étiquetées de haute qualité, ce qui limite son application aux tâches où les données étiquetées sont extrêmement rares. Dans cet article, nous proposons une extension légère sur BERT, ainsi qu’un nouvel objectif d’apprentissage auto-supervisé fondé sur des stratégies de maximisation de l’information mutuelle, afin d’obtenir des embeddings de phrases significatifs de manière non supervisée. Contrairement à SBERT, notre méthode n’est pas contrainte par la disponibilité de données étiquetées, ce qui lui permet d’être appliquée à divers corpus spécialisés par domaine. Les résultats expérimentaux montrent que la méthode proposée surpasse significativement les autres approches d’embedding de phrases non supervisées sur des tâches courantes de similarité textuelle sémantique (STS) ainsi que sur des tâches supervisées en aval. Elle dépasse également SBERT dans un cadre où aucune donnée étiquetée du domaine n’est disponible, tout en atteignant des performances compétitives avec les méthodes supervisées sur diverses tâches.