HyperAIHyperAI
vor 2 Monaten

Das Lernen von Dokumenten-Einbettungen zusammen mit ihren Unsicherheiten

Santosh Kesiraju; Oldřich Plchot; Lukáš Burget; Suryakanth V Gangashetty
Das Lernen von Dokumenten-Einbettungen zusammen mit ihren Unsicherheiten
Abstract

Die meisten Textmodellierungstechniken liefern nur Punktschätzungen von Dokumenten-Embeddings und sind nicht in der Lage, die Unsicherheit dieser Schätzungen zu erfassen. Diese Unsicherheiten geben einen Eindruck davon, wie gut die Embeddings ein Dokument repräsentieren. Wir stellen das bayesianische Subraum-Multinomialmodell (Bayesian SMM) vor, ein generatives log-lineares Modell, das lernt, Dokumente in Form von Gauß-Verteilungen darzustellen, wodurch die Unsicherheit in ihrer Kovarianz kodiert wird. Darüber hinaus behandeln wir im vorgeschlagenen Bayesian SMM ein häufig auftretendes Problem der Unlösbarkeit (Intractability), das während der variationellen Inferenz in gemischten Logit-Modellen auftritt. Zudem präsentieren wir einen generativen Gaußschen linearen Klassifikator für Themenidentifizierung, der die Unsicherheit in den Dokumenten-Embeddings ausnutzt. Unsere intrinsische Bewertung unter Verwendung des Perplexitätsmaßes zeigt, dass das vorgeschlagene Bayesian SMM die Daten besser anpasst als state-of-the-art neurale variationelle Dokumentenmodelle auf den Korpora Fishers Sprachdaten und 20Newsgroups. Unsere Experimente zur Themenidentifizierung zeigen, dass die vorgeschlagenen Systeme gegenüber Überanpassung (Overfitting) an unbekannten Testdaten robuster sind. Die Ergebnisse der Themen-ID zeigen, dass das vorgeschlagene Modell state-of-the-art unüberwachte Themenmodelle übertrifft und vergleichbare Ergebnisse mit state-of-the-art vollständig überwachten diskriminativen Modellen erzielt.

Das Lernen von Dokumenten-Einbettungen zusammen mit ihren Unsicherheiten | Neueste Forschungsarbeiten | HyperAI