HyperAIHyperAI
il y a 2 mois

Modélisation des Sujets dans les Espaces d'Embedding

Adji B. Dieng; Francisco J. R. Ruiz; David M. Blei
Modélisation des Sujets dans les Espaces d'Embedding
Résumé

La modélisation de sujets analyse des documents pour apprendre des motifs de mots significatifs. Cependant, les modèles de sujets existants échouent à apprendre des sujets interprétables lorsqu'ils travaillent avec des vocabulaires larges et à queue lourde. Pour remédier à cela, nous développons le modèle de sujet plongé (Embedded Topic Model, ETM), un modèle génératif de documents qui combine les modèles de sujets traditionnels avec les plongements de mots (word embeddings). Plus précisément, il modélise chaque mot par une distribution catégorielle dont le paramètre naturel est le produit scalaire entre un plongement de mot et un plongement du sujet auquel il est assigné. Pour ajuster l'ETM, nous développons un algorithme d'inférence variationnelle amortie efficace. L'ETM découvre des sujets interprétables même avec des vocabulaires importants contenant des mots rares et des mots d'arrêt. Il surpasse les modèles de documents existants, tels que l'allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA), en termes de qualité des sujets et de performance prédictive.

Modélisation des Sujets dans les Espaces d'Embedding | Articles de recherche récents | HyperAI