HyperAIHyperAI

Command Palette

Search for a command to run...

Das Lernen von Dokumenten-Einbettungen zusammen mit ihren Unsicherheiten

Santosh Kesiraju Oldřich Plchot Lukáš Burget Suryakanth V Gangashetty

Zusammenfassung

Die meisten Textmodellierungstechniken liefern nur Punktschätzungen von Dokumenten-Embeddings und sind nicht in der Lage, die Unsicherheit dieser Schätzungen zu erfassen. Diese Unsicherheiten geben einen Eindruck davon, wie gut die Embeddings ein Dokument repräsentieren. Wir stellen das bayesianische Subraum-Multinomialmodell (Bayesian SMM) vor, ein generatives log-lineares Modell, das lernt, Dokumente in Form von Gauß-Verteilungen darzustellen, wodurch die Unsicherheit in ihrer Kovarianz kodiert wird. Darüber hinaus behandeln wir im vorgeschlagenen Bayesian SMM ein häufig auftretendes Problem der Unlösbarkeit (Intractability), das während der variationellen Inferenz in gemischten Logit-Modellen auftritt. Zudem präsentieren wir einen generativen Gaußschen linearen Klassifikator für Themenidentifizierung, der die Unsicherheit in den Dokumenten-Embeddings ausnutzt. Unsere intrinsische Bewertung unter Verwendung des Perplexitätsmaßes zeigt, dass das vorgeschlagene Bayesian SMM die Daten besser anpasst als state-of-the-art neurale variationelle Dokumentenmodelle auf den Korpora Fishers Sprachdaten und 20Newsgroups. Unsere Experimente zur Themenidentifizierung zeigen, dass die vorgeschlagenen Systeme gegenüber Überanpassung (Overfitting) an unbekannten Testdaten robuster sind. Die Ergebnisse der Themen-ID zeigen, dass das vorgeschlagene Modell state-of-the-art unüberwachte Themenmodelle übertrifft und vergleichbare Ergebnisse mit state-of-the-art vollständig überwachten diskriminativen Modellen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp