HyperAIHyperAI

Command Palette

Search for a command to run...

Kugelförmige latente Räume für stabile Variationsautoencoder

Jiacheng Xu Greg Durrett

Zusammenfassung

Eine charakteristische Eigenschaft von Variational Autoencodern (VAEs) für Textverarbeitung ist ihre Kombination mächtiger Encoder-Decoder-Modelle, wie z.B. LSTMs, mit einfachen latente Verteilungen, typischerweise multivariaten Gaußschen Verteilungen. Diese Modelle stellen ein schwieriges Optimierungsproblem dar: Es gibt eine besonders schlechte lokale Optimumslage, bei der die variationale A-posteriori-Verteilung immer der A-priori-Verteilung entspricht und das Modell die latente Variable überhaupt nicht verwendet – eine Art „Kollaps“, der durch den KL-Divergenz-Term des Zielfunktionals gefördert wird. In dieser Arbeit untersuchen wir eine andere Wahl der latenten Verteilung, nämlich die von Mises-Fisher-(vMF-)Verteilung, die Massen auf der Oberfläche der Einheitshypersphäre plaziert. Mit dieser Wahl von A-priori- und A-posteriori-Verteilungen hängt der KL-Divergenz-Term nun nur von der Varianz der vMF-Verteilung ab, was uns die Möglichkeit gibt, ihn als festen Hyperparameter zu behandeln. Wir zeigen, dass dies nicht nur den KL-Kollaps vermeidet, sondern unter einer Reihe von Modellierungsbedingungen, einschließlich rekurrenter Sprachmodelle und Bag-of-Words-Dokumentmodellen, konsistent bessere Likelihoods als Gaußsche Verteilungen liefert. Eine Analyse der Eigenschaften unserer vMF-Repräsentationen ergibt, dass sie reichere und nuanciertere Strukturen in ihren latenten Repräsentationen lernen als ihre Gaußschen Entsprechungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp