il y a 7 jours

TSDAE : Utilisation d’un Auto-encodeur Débruitant Séquentiel basé sur Transformer pour l’Apprentissage Non Supervisé de Représentations de Phrases

Kexin Wang, Nils Reimers, Iryna Gurevych

Résumé

L’apprentissage des embeddings de phrases nécessite souvent une grande quantité de données étiquetées. Toutefois, pour la plupart des tâches et domaines, de telles données sont rares et leur création s’avère coûteuse. Dans ce travail, nous présentons une nouvelle méthode non supervisée de pointe, fondée sur des Transformers pré-entraînés et un Auto-encodeur à débruitage séquentiel (TSDAE), qui surpasse les approches précédentes de jusqu’à 6,4 points. Elle parvient à atteindre jusqu’à 93,1 % de la performance des méthodes supervisées spécifiques au domaine. Par ailleurs, nous démontrons que TSDAE constitue une méthode puissante pour l’adaptation de domaine et le pré-entraînement des embeddings de phrases, surpassant significativement d’autres approches telles que le modèle de langage masqué (Masked Language Model). Un défaut crucial des études antérieures réside dans l’évaluation restreinte : la plupart des travaux évaluent principalement la tâche unique de similarité textuelle sémantique (STS), qui ne nécessite aucune connaissance de domaine. Il reste incertain que ces méthodes s’appliquent efficacement à d’autres domaines et tâches. Nous comblons cette lacune en évaluant TSDAE et d’autres approches récentes sur quatre jeux de données provenant de domaines hétérogènes.