Themenmodellierung in Einbettungsräumen

Themenmodellierung analysiert Dokumente, um bedeutsame Wortschaftmuster zu erkennen. Bestehende Themenmodelle scheitern jedoch daran, interpretierbare Themen zu lernen, wenn sie mit großen und schweren Vokabularen arbeiten. Um dieses Problem anzugehen, entwickeln wir das eingebettete Themenmodell (Embedded Topic Model, ETM), ein generatives Modell von Dokumenten, das traditionelle Themenmodelle mit Wort-Einbettungen verbindet. Insbesondere modelliert es jedes Wort durch eine kategoriale Verteilung, deren natürlicher Parameter das Skalarprodukt zwischen einer Wort-Einbettung und der Einbettung des zugewiesenen Themas ist. Zur Anpassung des ETM haben wir einen effizienten amortisierten variationellen Inferenzalgorithmus entwickelt. Das ETM entdeckt interpretierbare Themen selbst bei großen Vokabularen, die seltene Wörter und Stop-Wörter beinhalten. Es übertrifft bestehende Dokumentmodelle wie das latente Dirichlet-Zuordnungsmodell (Latent Dirichlet Allocation, LDA) sowohl in Bezug auf die Themenqualität als auch auf die vorhersagende Leistung.