HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation des Sujets dans les Espaces d'Embedding

Changyou Chen Tong Zhang Kevin Murphy

Résumé

La modélisation de sujets analyse des documents pour apprendre des motifs de mots significatifs. Cependant, les modèles de sujets existants échouent à apprendre des sujets interprétables lorsqu'ils travaillent avec des vocabulaires larges et à queue lourde. Pour remédier à cela, nous développons le modèle de sujet plongé (Embedded Topic Model, ETM), un modèle génératif de documents qui combine les modèles de sujets traditionnels avec les plongements de mots (word embeddings). Plus précisément, il modélise chaque mot par une distribution catégorielle dont le paramètre naturel est le produit scalaire entre un plongement de mot et un plongement du sujet auquel il est assigné. Pour ajuster l'ETM, nous développons un algorithme d'inférence variationnelle amortie efficace. L'ETM découvre des sujets interprétables même avec des vocabulaires importants contenant des mots rares et des mots d'arrêt. Il surpasse les modèles de documents existants, tels que l'allocation latente de Dirichlet (Latent Dirichlet Allocation, LDA), en termes de qualité des sujets et de performance prédictive.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp