HyperAIHyperAI

Command Palette

Search for a command to run...

Une Approche d'Auto-Entraînement pour le Regroupement de Textes Courts

Chris Develder Thomas Demeester Lucas Sterckx Amir Hadifar

Résumé

Le regroupement de textes courts constitue un problème difficile lorsqu’on utilise des représentations traditionnelles telles que le modèle « sac de mots » ou TF-IDF, car celles-ci donnent lieu à des représentations vectorielles creuses pour les textes courts. Les représentations continues de faible dimension, ou embeddings, permettent de pallier ce problème de sparsité grâce à leur forte capacité expressive, exploitée dans les algorithmes de regroupement profond. Bien que le regroupement profond ait été largement étudié en vision par ordinateur, très peu de travaux se sont concentrés sur le traitement du langage naturel (NLP). La méthode que nous proposons apprend des caractéristiques discriminantes à partir à la fois d’un autoencodeur et d’un embedding de phrase, puis utilise les affectations issues d’un algorithme de clustering comme signal de supervision pour mettre à jour les poids du réseau encodeur. Des expériences menées sur trois jeux de données de textes courts valident empiriquement l’efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp