HyperAIHyperAI

Command Palette

Search for a command to run...

Une méthode non supervisée d’encodage de phrases par maximisation de l’information mutuelle

Yan Zhang Ruidan He Zuozhu Liu Kwan Hui Lim Lidong Bing

Résumé

BERT se révèle inefficace pour les tâches impliquant des paires de phrases, telles que le regroupement (clustering) ou la recherche sémantique, car il nécessite d’évaluer un nombre combinatoire de paires de phrases, ce qui s’avère très coûteux en temps. Sentence BERT (SBERT) a tenté de résoudre ce problème en apprenant des représentations sémantiquement significatives pour des phrases isolées, permettant ainsi une comparaison de similarité plus aisée. Toutefois, SBERT est entraîné sur des corpus comprenant des paires de phrases étiquetées de haute qualité, ce qui limite son application aux tâches où les données étiquetées sont extrêmement rares. Dans cet article, nous proposons une extension légère sur BERT, ainsi qu’un nouvel objectif d’apprentissage auto-supervisé fondé sur des stratégies de maximisation de l’information mutuelle, afin d’obtenir des embeddings de phrases significatifs de manière non supervisée. Contrairement à SBERT, notre méthode n’est pas contrainte par la disponibilité de données étiquetées, ce qui lui permet d’être appliquée à divers corpus spécialisés par domaine. Les résultats expérimentaux montrent que la méthode proposée surpasse significativement les autres approches d’embedding de phrases non supervisées sur des tâches courantes de similarité textuelle sémantique (STS) ainsi que sur des tâches supervisées en aval. Elle dépasse également SBERT dans un cadre où aucune donnée étiquetée du domaine n’est disponible, tout en atteignant des performances compétitives avec les méthodes supervisées sur diverses tâches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp