HyperAI

Rekurrente neuronale Netze (RNNs) sind schwer zu trainieren, geschweige denn solche mit tiefen räumlichen Strukturen. Architekturen, die auf Highway-Verbindungen basieren, wie beispielsweise das Recurrent Highway Network (RHN), wurden entwickelt, um eine größere Übergangstiefe zwischen aufeinanderfolgenden Schritten zu ermöglichen und damit ausdrucksstärkere Modelle zu schaffen. Dennoch können diese Modelle weiterhin Probleme nicht effektiv lösen, die die Erfassung langfristiger Abhängigkeiten erfordern. Zudem neigt die Fähigkeit, langfristige Erinnerungen zu bewahren, dazu, mit zunehmender räumlicher Tiefe zu abzunehmen, da tiefere Strukturen das Verschwinden von Gradienten beschleunigen können. In diesem Paper lösen wir diese Probleme durch die Einführung einer neuen RNN-Architektur auf Basis des RHN, namens Recurrent Highway Network mit gruppiertem Hilfs-Speicher (GAM-RHN). Die vorgeschlagene Architektur verbindet das RHN mit einer Reihe von Hilfs-Speichereinheiten, die speziell zur Speicherung langfristiger Informationen über Lese- und Schreiboperationen dienen – ein Ansatz, der an Memory-Augmented Neural Networks (MANNs) angelehnt ist. Experimentelle Ergebnisse auf künstlichen Aufgaben mit langen zeitlichen Verzögerungen zeigen, dass GAM-RHNs effizient trainiert werden können und gleichzeitig sowohl in der Zeit als auch im Raum tief sind. Wir evaluieren die vorgeschlagene Architektur zudem auf einer Vielzahl von Aufgaben, darunter Sprachmodellierung, sequenzielle Bildklassifikation und Finanzmarktprognose. Die Leistungsfähigkeit unseres Ansatzes wird durch state-of-the-art-Ergebnisse auf diesen Aufgaben belegt.

Benchmark	Methodik	Metriken
language-modelling-on-penn-treebank-character	GAM-RHN-5	Bit per Character (BPC): 1.147 Number of params: 16.0M
language-modelling-on-text8	GAM-RHN-10	Bit per Character (BPC): 1.157 Number of params: 44.7M
sequential-image-classification-on-sequential	GAM-RHN-1	Permuted Accuracy: 96.8%
stock-trend-prediction-on-fi-2010	BL-GAM-RHN-7	Accuracy (H50): 0.8202 F1 (H50): 0.8088

Recurrent Highway Networks mit gruppiertem Hilfsspeicher

{Wei Luo ; Feng Yu}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Recurrent Highway Networks mit gruppiertem Hilfsspeicher

{Wei Luo ; Feng Yu}

Abstract

Benchmarks

KI mit KI entwickeln

Hyper Newsletters