Recurrent Highway Networks mit gruppiertem Hilfsspeicher
Rekurrente neuronale Netze (RNNs) sind schwer zu trainieren, geschweige denn solche mit tiefen räumlichen Strukturen. Architekturen, die auf Highway-Verbindungen basieren, wie beispielsweise das Recurrent Highway Network (RHN), wurden entwickelt, um eine größere Übergangstiefe zwischen aufeinanderfolgenden Schritten zu ermöglichen und damit ausdrucksstärkere Modelle zu schaffen. Dennoch können diese Modelle weiterhin Probleme nicht effektiv lösen, die die Erfassung langfristiger Abhängigkeiten erfordern. Zudem neigt die Fähigkeit, langfristige Erinnerungen zu bewahren, dazu, mit zunehmender räumlicher Tiefe zu abzunehmen, da tiefere Strukturen das Verschwinden von Gradienten beschleunigen können. In diesem Paper lösen wir diese Probleme durch die Einführung einer neuen RNN-Architektur auf Basis des RHN, namens Recurrent Highway Network mit gruppiertem Hilfs-Speicher (GAM-RHN). Die vorgeschlagene Architektur verbindet das RHN mit einer Reihe von Hilfs-Speichereinheiten, die speziell zur Speicherung langfristiger Informationen über Lese- und Schreiboperationen dienen – ein Ansatz, der an Memory-Augmented Neural Networks (MANNs) angelehnt ist. Experimentelle Ergebnisse auf künstlichen Aufgaben mit langen zeitlichen Verzögerungen zeigen, dass GAM-RHNs effizient trainiert werden können und gleichzeitig sowohl in der Zeit als auch im Raum tief sind. Wir evaluieren die vorgeschlagene Architektur zudem auf einer Vielzahl von Aufgaben, darunter Sprachmodellierung, sequenzielle Bildklassifikation und Finanzmarktprognose. Die Leistungsfähigkeit unseres Ansatzes wird durch state-of-the-art-Ergebnisse auf diesen Aufgaben belegt.