Command Palette
Search for a command to run...
Kugelförmige latente Räume für stabile Variationsautoencoder
Kugelförmige latente Räume für stabile Variationsautoencoder
Jiacheng Xu Greg Durrett
Zusammenfassung
Eine charakteristische Eigenschaft von Variational Autoencodern (VAEs) für Textverarbeitung ist ihre Kombination mächtiger Encoder-Decoder-Modelle, wie z.B. LSTMs, mit einfachen latente Verteilungen, typischerweise multivariaten Gaußschen Verteilungen. Diese Modelle stellen ein schwieriges Optimierungsproblem dar: Es gibt eine besonders schlechte lokale Optimumslage, bei der die variationale A-posteriori-Verteilung immer der A-priori-Verteilung entspricht und das Modell die latente Variable überhaupt nicht verwendet – eine Art „Kollaps“, der durch den KL-Divergenz-Term des Zielfunktionals gefördert wird. In dieser Arbeit untersuchen wir eine andere Wahl der latenten Verteilung, nämlich die von Mises-Fisher-(vMF-)Verteilung, die Massen auf der Oberfläche der Einheitshypersphäre plaziert. Mit dieser Wahl von A-priori- und A-posteriori-Verteilungen hängt der KL-Divergenz-Term nun nur von der Varianz der vMF-Verteilung ab, was uns die Möglichkeit gibt, ihn als festen Hyperparameter zu behandeln. Wir zeigen, dass dies nicht nur den KL-Kollaps vermeidet, sondern unter einer Reihe von Modellierungsbedingungen, einschließlich rekurrenter Sprachmodelle und Bag-of-Words-Dokumentmodellen, konsistent bessere Likelihoods als Gaußsche Verteilungen liefert. Eine Analyse der Eigenschaften unserer vMF-Repräsentationen ergibt, dass sie reichere und nuanciertere Strukturen in ihren latenten Repräsentationen lernen als ihre Gaußschen Entsprechungen.