Erweiterte rekurrente Neuronale Netze

Das Lernen mit rekurrenten Neuronalen Netzen (RNNs) an langen Sequenzen ist eine notorisch schwierige Aufgabe. Es gibt drei Hauptherausforderungen: 1) komplexe Abhängigkeiten, 2) verschwindende und explodierende Gradienten und 3) effiziente Parallelisierung. In dieser Arbeit stellen wir eine einfache, aber effektive RNN-Verbindungsstruktur vor, die DilatedRNN, die gleichzeitig alle diese Herausforderungen angeht. Die vorgeschlagene Architektur zeichnet sich durch mehrschichtige dilatierte rekurrente Skip-Verbindungen aus und kann flexibel mit verschiedenen RNN-Zellen kombiniert werden. Darüber hinaus reduziert die DilatedRNN die Anzahl der benötigten Parameter erheblich und verbessert die Trainings-effizienz stark, während sie den Stand der Technik in Aufgaben mit sehr langfristigen Abhängigkeiten erreicht (selbst bei Standard-RNN-Zellen). Um eine theoriebasierte Quantifizierung der Vorteile der Architektur zu liefern, führen wir ein Merkmal für die Speicherkapazität ein, die durchschnittliche rekurrente Länge, die für RNNs mit langen Skip-Verbindungen besser geeignet ist als bestehende Maße. Wir beweisen streng die Vorteile der DilatedRNN über andere rekurrente neuronale Architekturen. Der Code unserer Methode ist öffentlich unter https://github.com/code-terminator/DilatedRNN verfügbar.