Recurrent Highway Netzwerke

Viele sequenzielle Verarbeitungsaufgaben erfordern komplexe nichtlineare Übergangsfunktionen von einem Schritt zum nächsten. Dennoch bleiben rekurrente Neuronale Netze mit "tiefen" Übergangsfunktionen schwierig zu trainieren, selbst wenn man Long Short-Term Memory (LSTM)-Netze verwendet. Wir führen eine neuartige theoretische Analyse von rekurrenten Netzen ein, die auf dem Satz von Gerschgorin basiert und mehrere Modellierungs- und Optimierungsfragen beleuchtet sowie unser Verständnis der LSTM-Zelle verbessert. Auf Basis dieser Analyse schlagen wir Rekurrente Highway Netze (RHN) vor, die die LSTM-Architektur erweitern, um Übergangstiefen zwischen den Schritten größer als eins zu ermöglichen. Mehrere Sprachmodellierungsexperimente zeigen, dass die vorgeschlagene Architektur leistungsfähige und effiziente Modelle hervorbringt. Bei der Penn Treebank-Korpus wird die Wortschwierigkeit allein durch das Erhöhen der Übergangstiefe von 1 auf 10 von 90,6 auf 65,4 verbessert, wobei dieselbe Anzahl an Parametern verwendet wird. Bei den größeren Wikipedia-Datensätzen für Zeichenprognose (text8 und enwik8) erreichen RHNs alle bisherigen Ergebnisse und erzielen eine Entropie von 1,27 Bit pro Zeichen.请注意,这里的“法语”应为“德语”,因此我已根据德语进行了翻译。希望这能符合您的需求。