vor 2 Monaten

Verbesserte variationelle Autoencoder für Textmodellierung durch Verwendung dilaterter Faltungen

Zichao Yang; Zhiting Hu; Ruslan Salakhutdinov; Taylor Berg-Kirkpatrick

Abstract

Neuere Arbeiten zum generativen Modellieren von Text haben gezeigt, dass Variations-Autoencoder (VAE) mit LSTM-Decodern schlechter abschneiden als einfachere LSTM-Sprachmodelle (Bowman et al., 2015). Dieses negative Ergebnis ist bisher nur unzureichend verstanden, wurde aber der Tendenz zugeschrieben, dass LSTM-Decoder Informationen aus dem Encoder ignorieren. In dieser Arbeit experimentieren wir mit einem neuen Typ von Decoder für VAE: einem dilatierten CNN. Durch die Anpassung der Dilatationsarchitektur des Decoders können wir den effektiven Kontext von zuvor generierten Wörtern steuern. In unseren Experimenten finden wir einen Kompromiss zwischen der kontextuellen Kapazität des Decoders und der Menge an Codierungsinformationen, die verwendet werden. Wir zeigen, dass VAE mit dem richtigen Decoder LSTM-Sprachmodelle übertreffen können. Wir demonstrieren Verbesserungen der Perplexität auf zwei Datensätzen, was das erste positive experimentelle Ergebnis zur Verwendung von VAE für das generative Modellieren von Text darstellt. Darüber hinaus führen wir eine detaillierte Untersuchung der Verwendung von VAE (mit unserer neuen Dekodierarchitektur) für semi-überwachte und unüberwachte Labeling-Aufgaben durch und zeigen Verbesserungen gegenüber mehreren starken Baselines.