vONTSS: vMF-basierte semi-supervised neuronale Themenmodellierung mit optimaler Transporttheorie

Kürzlich haben neuronale Themenmodelle (NTM), die von Variational Autoencodern inspiriert sind, erhebliches Forschungsinteresse geweckt; aufgrund der Schwierigkeit, menschliches Wissen effektiv zu integrieren, besitzen diese Methoden jedoch begrenzte Anwendbarkeit in der Praxis. In dieser Arbeit präsentieren wir einen semi-supervisierten Ansatz für neuronale Themenmodellierung namens vONTSS, der auf Variational Autoencodern basierend auf der von Mises-Fisher-Verteilung (vMF) und Optimaler Transporttheorie aufbaut. Sobald wenige Stichwörter pro Thema bereitgestellt werden, generiert vONTSS im semi-supervisierten Modus potenzielle Themen und optimiert gleichzeitig die Qualität von Themen-Stichwort-Beziehungen sowie die Klassifikationsgenauigkeit. Experimente zeigen, dass vONTSS bestehende semi-supervisierte Themenmodellierungsansätze hinsichtlich Klassifikationsgenauigkeit und Themenvielfalt übertrifft. Darüber hinaus unterstützt vONTSS auch unsupervisierte Themenmodellierung. Quantitative und qualitative Experimente belegen, dass vONTSS im unsupervisierten Fall gegenwärtige NTMs in mehreren Aspekten überlegen ist: vONTSS entdeckt hochgradig konsolidierte und kohärente Themen auf Standard-Datensätzen. Zudem ist es deutlich schneller als die derzeit fortschrittlichste Methode für schwach überwachte Textklassifikation, während gleichzeitig vergleichbare Klassifikationsleistung erzielt wird. Schließlich beweisen wir die Äquivalenz der optimalen Transportverlustfunktion und der Kreuzentropieverlustfunktion im globalen Minimum.