Rekurrente Neuronale Netze für Lange Folgen Wiederbeleben

Recurrent Neural Networks (RNNs) bieten eine schnelle Inferenz für lange Sequenzen, sind jedoch schwer zu optimieren und langsam im Training. Tiefgangige Zustandsraummodelle (Deep State-Space Models, SSMs) haben kürzlich gezeigt, dass sie bei der Modellierung langer Sequenzen außergewöhnlich gut abschneiden und zusätzliche Vorteile wie schnelles parallelisierbares Training und RNN-ähnliche schnelle Inferenz bieten. Allerdings, obwohl SSMs auf den ersten Blick den RNNs ähnlich erscheinen, gibt es wichtige Unterschiede, die es unklar machen, woher ihr Leistungsplus gegenüber RNNs stammt. In dieser Arbeit zeigen wir, dass eine sorgfältige Gestaltung tiefer RNNs unter Verwendung standardisierter Signalverbreitungsargumente die beeindruckende Leistung von tiefen SSMs bei Aufgaben mit langfristigem Schließen wiederherstellen kann, während gleichzeitig ihre Trainingsgeschwindigkeit erreicht wird. Um dies zu erreichen, analysieren und evaluieren wir eine Reihe von Änderungen an standardmäßigen RNNs, darunter die Linearisierung und Diagonalisierung der Rekurrenz, die Verwendung besserer Parametrisierungen und Initialisierungen sowie die Sicherstellung einer angemessenen Normalisierung des Vorwärtsdurchgangs. Unsere Ergebnisse liefern neue Erkenntnisse über die Ursprünge der beeindruckenden Leistung von tiefen SSMs und führen gleichzeitig einen RNN-Block ein, den Linear Recurrent Unit (LRU), der sowohl in der Leistung als auch in der rechnerischen Effizienz auf dem Long Range Arena Benchmark mit tiefen SSMs konkurrieren kann.