Allocation De Dirichlet Latente
Allocation de Dirichlet cachée LDA est un modèle de sujet qui peut exprimer le sujet de chaque document dans un ensemble de documents sous la forme d'une distribution de probabilité. Il s’agit également d’un algorithme d’apprentissage non supervisé qui ne nécessite pas d’ensembles d’entraînement annotés manuellement pour l’entraînement. Il ne nécessite qu'un ensemble de documents et un nombre spécifié de sujets K. De plus, certains mots peuvent être trouvés pour décrire chaque sujet.
LDA a été proposé pour la première fois par Blei, David M., Jordan, Michael I et Andrew Ng en 2003. Il est actuellement utilisé dans le domaine de l'exploration de texte, comme l'identification de sujets de texte, la classification de texte et le calcul de similarité de texte.
LDA est un modèle typique de sac de mots, c'est-à-dire qu'un article est une collection de mots, il n'y a pas d'ordre ni de priorité entre les mots, un document peut contenir plusieurs sujets et chaque mot du document est généré par le sujet correspondant.