Command Palette
Search for a command to run...
Une Approche d'Auto-Entraînement pour le Regroupement de Textes Courts
Une Approche d'Auto-Entraînement pour le Regroupement de Textes Courts
Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar
Résumé
Le regroupement de textes courts constitue un problème difficile lorsqu’on utilise des représentations traditionnelles telles que le modèle « sac de mots » ou TF-IDF, car celles-ci donnent lieu à des représentations vectorielles creuses pour les textes courts. Les représentations continues de faible dimension, ou embeddings, permettent de pallier ce problème de sparsité grâce à leur forte capacité expressive, exploitée dans les algorithmes de regroupement profond. Bien que le regroupement profond ait été largement étudié en vision par ordinateur, très peu de travaux se sont concentrés sur le traitement du langage naturel (NLP). La méthode que nous proposons apprend des caractéristiques discriminantes à partir à la fois d’un autoencodeur et d’un embedding de phrase, puis utilise les affectations issues d’un algorithme de clustering comme signal de supervision pour mettre à jour les poids du réseau encodeur. Des expériences menées sur trois jeux de données de textes courts valident empiriquement l’efficacité de notre approche.