il y a 2 mois
Regroupement de textes courts avec des transformateurs
Leonid Pugachev; Mikhail Burtsev

Résumé
Les techniques récentes pour la tâche de clustering de textes courts s'appuient souvent sur des plongements lexicaux (word embeddings) en tant que composant d'apprentissage par transfert. Cet article montre que les représentations vectorielles de phrases issues des Transformers, associées à différentes méthodes de clustering, peuvent être appliquées avec succès pour résoudre cette tâche. De plus, nous démontrons que l'algorithme d'amélioration du clustering par classification itérative peut encore améliorer les performances initiales du clustering avec différents classifieurs, y compris ceux basés sur des modèles linguistiques de Transformers pré-entraînés.