vor einem Monat

Schnell-Langsam-Rekurrente Neuronale Netze

Asier Mujika; Florian Meier; Angelika Steger

Abstract

Die Verarbeitung sequentieller Daten variabler Länge stellt eine große Herausforderung in einer Vielzahl von Anwendungen dar, wie z.B. Spracherkennung, Sprachmodellierung, generative Bildmodellierung und maschinelle Übersetzung. In dieser Arbeit adressieren wir diese Herausforderung durch den Vorschlag einer neuen rekurrenten Neuronalen Netzwerkarchitektur, dem Fast-Slow RNN (FS-RNN). Das FS-RNN kombiniert die Stärken sowohl von mehrskaligen RNNs als auch von tiefen Transitions-RNNs, da es sequentielle Daten auf verschiedenen Zeitskalen verarbeitet und komplexe Übergangsfunktionen von einem Zeitpunkt zum nächsten lernt. Wir evaluieren das FS-RNN anhand zweier Datensätze für die Modellierung auf Charakterebene, nämlich der Penn Treebank und des Hutter Prize Wikipedia, wo wir die Stand der Technik Ergebnisse verbessern können auf $1{,}19$ und $1{,}25$ Bits pro Zeichen (BPC), jeweils. Zudem erreicht ein Ensemble aus zwei FS-RNNs einen Wert von $1{,}20$ BPC beim Hutter Prize Wikipedia-Datensatz, was den besten bekannten Kompressionsalgorithmus hinsichtlich der BPC-Metrik übertrifft. Wir präsentieren außerdem eine empirische Untersuchung der Lern- und Netzwerkdynamik des FS-RNNs, die die verbesserte Leistung im Vergleich zu anderen RNN-Architekturen erklärt. Unser Ansatz ist allgemein, da jede Art von RNN-Zelle als möglicher Baustein für die Architektur des FS-RNN verwendet werden kann und daher flexibel auf verschiedene Aufgaben angewendet werden kann.