vor 2 Monaten

Unabhängiges rekurrentes Neuronales Netz (IndRNN): Erstellung eines längeren und tieferen RNN

Shuai Li; Wanqing Li; Chris Cook; Ce Zhu; Yanbo Gao

Abstract

Rekurrente Neuronale Netze (RNNs) werden weit verbreitet zur Verarbeitung sequentieller Daten eingesetzt. Allerdings sind RNNs aufgrund der bekannten Probleme des Gradientenverschwindens und -explodierens oft schwer zu trainieren und es fällt ihnen schwer, langfristige Muster zu lernen. Long Short-Term Memory (LSTM) und Gated Recurrent Unit (GRU) wurden entwickelt, um diese Probleme zu lösen, aber die Verwendung von hyperbolischem Tangens und der Sigmoid-Aktivierungsfunktion führt zu einem Gradientenverfall über die Schichten. Daher ist die Konstruktion eines effizient trainierbaren tiefen Netzes herausfordernd. Zudem sind alle Neuronen in einer RNN-Schicht miteinander verflochten, was ihr Verhalten schwierig interpretierbar macht. Um diese Probleme anzugehen, wird in dieser Arbeit ein neuer Typ von RNN vorgeschlagen, der als unabhängiges rekurrentes neuronales Netz (IndRNN) bezeichnet wird. Bei diesem Netz sind die Neuronen innerhalb derselben Schicht voneinander unabhängig und sie sind über die Schichten hinweg verbunden. Es wurde gezeigt, dass ein IndRNN leicht reguliert werden kann, um das Problem des explodierenden und verschwindenden Gradienten zu verhindern, während das Netzwerk gleichzeitig langfristige Abhängigkeiten lernen kann. Darüber hinaus kann ein IndRNN mit nicht-sättigenden Aktivierungsfunktionen wie ReLU (Rectified Linear Unit) arbeiten und dennoch robust trainiert werden. Mehrere IndRNNs können gestapelt werden, um ein tieferes Netzwerk als bei den bisherigen RNNs zu konstruieren. Experimentelle Ergebnisse haben gezeigt, dass das vorgeschlagene IndRNN sehr lange Sequenzen (über 5000 Zeitschritte) verarbeiten kann, zum Bau sehr tiefer Netze (21 Schichten wurden im Experiment verwendet) eingesetzt werden kann und dennoch robust trainiert werden kann. Bessere Leistungen wurden bei verschiedenen Aufgaben durch den Einsatz von IndRNNs erzielt im Vergleich zu traditionellen RNNs und LSTMs. Der Code ist unter https://github.com/Sunnydreamrain/IndRNN_Theano_Lasagne verfügbar.