Latente Dirichlet-Allokation
Versteckte Dirichlet-Allokation LDA ist ein Themenmodell, das das Thema jedes Dokuments in einem Dokumentsatz in Form einer Wahrscheinlichkeitsverteilung ausdrücken kann. Es handelt sich außerdem um einen unüberwachten Lernalgorithmus, der für das Training keine manuell annotierten Trainingssätze erfordert. Es werden lediglich ein Dokumentensatz und eine festgelegte Anzahl von Themen K benötigt. Zusätzlich lassen sich zu jedem Thema einige Wörter finden, die es beschreiben.
LDA wurde erstmals 2003 von Blei, David M., Jordan, Michael I und Andrew Ng vorgeschlagen. Es wird derzeit im Bereich des Text Mining verwendet, beispielsweise zur Identifizierung von Textthemen, zur Textklassifizierung und zur Berechnung von Textähnlichkeiten.
LDA ist ein typisches Bag-of-Words-Modell, d. h. ein Artikel ist eine Sammlung von Wörtern, es gibt keine Reihenfolge oder Priorität zwischen den Wörtern, ein Dokument kann mehrere Themen enthalten und jedes Wort im Dokument wird durch das entsprechende Thema generiert.