HyperAIHyperAI

Command Palette

Search for a command to run...

Rekurrente Neuronale Netze für Lange Folgen Wiederbeleben

Antonio Orvieto Samuel I. Smith Albert Gu Anushan Fernando Caglar Gulcehre Razvan Pascanu Soham De

Zusammenfassung

Recurrent Neural Networks (RNNs) bieten eine schnelle Inferenz für lange Sequenzen, sind jedoch schwer zu optimieren und langsam im Training. Tiefgangige Zustandsraummodelle (Deep State-Space Models, SSMs) haben kürzlich gezeigt, dass sie bei der Modellierung langer Sequenzen außergewöhnlich gut abschneiden und zusätzliche Vorteile wie schnelles parallelisierbares Training und RNN-ähnliche schnelle Inferenz bieten. Allerdings, obwohl SSMs auf den ersten Blick den RNNs ähnlich erscheinen, gibt es wichtige Unterschiede, die es unklar machen, woher ihr Leistungsplus gegenüber RNNs stammt. In dieser Arbeit zeigen wir, dass eine sorgfältige Gestaltung tiefer RNNs unter Verwendung standardisierter Signalverbreitungsargumente die beeindruckende Leistung von tiefen SSMs bei Aufgaben mit langfristigem Schließen wiederherstellen kann, während gleichzeitig ihre Trainingsgeschwindigkeit erreicht wird. Um dies zu erreichen, analysieren und evaluieren wir eine Reihe von Änderungen an standardmäßigen RNNs, darunter die Linearisierung und Diagonalisierung der Rekurrenz, die Verwendung besserer Parametrisierungen und Initialisierungen sowie die Sicherstellung einer angemessenen Normalisierung des Vorwärtsdurchgangs. Unsere Ergebnisse liefern neue Erkenntnisse über die Ursprünge der beeindruckenden Leistung von tiefen SSMs und führen gleichzeitig einen RNN-Block ein, den Linear Recurrent Unit (LRU), der sowohl in der Leistung als auch in der rechnerischen Effizienz auf dem Long Range Arena Benchmark mit tiefen SSMs konkurrieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Rekurrente Neuronale Netze für Lange Folgen Wiederbeleben | Paper | HyperAI