Tiefe unabhängige rekurrente Neuronale Netzwerke (IndRNN)

Rekurrente Neuronale Netze (RNNs) sind bekannt für ihre Schwierigkeit bei der Training aufgrund der Probleme des Gradientenverschwindens und -explodierens, wodurch es schwierig ist, langfristige Muster zu lernen und tiefe Netzwerke zu konstruieren. Um diese Probleme anzugehen, schlägt dieser Artikel eine neue Art von RNNs vor, bei denen die rekurrente Verbindung als Hadamard-Produkt formuliert wird. Diese Netzwerke werden als unabhängige rekurrente neuronale Netze (IndRNN) bezeichnet, wobei die Neuronen in derselben Schicht voneinander unabhängig sind und über Schichten hinweg verbunden sind. Aufgrund einer besseren Gradienten-Rückwärtspropagation können IndRNNs mit regulierten rekurrenten Gewichten die Probleme des Gradientenverschwindens und -explodierens effektiv lösen, sodass langfristige Abhängigkeiten gelernt werden können. Darüber hinaus kann ein IndRNN mit nicht-sättigenden Aktivierungsfunktionen wie ReLU (Rectified Linear Unit) arbeiten und dennoch robust trainiert werden. Verschiedene tiefere IndRNN-Architekturen wurden untersucht, darunter das grundlegende gestapelte IndRNN, das residuelle IndRNN und das dicht verbundene IndRNN. Alle diese Architekturen können viel tiefer sein als die bestehenden RNNs. Zudem reduziert IndRNN die Berechnung in jedem Zeitschritt und kann bis zu zehnmal schneller sein als die häufig verwendeten Long Short-Term Memory (LSTM)-Netze. Experimentelle Ergebnisse haben gezeigt, dass das vorgeschlagene IndRNN in der Lage ist, sehr lange Sequenzen zu verarbeiten und sehr tiefe Netzwerke zu konstruieren. Bessere Leistungen wurden bei verschiedenen Aufgaben mit IndRNNs erzielt im Vergleich zu traditionellen RNNs, LSTMs und dem beliebten Transformer-Modell.