Residuelle Shuffle-Exchange-Netze für die schnelle Verarbeitung langer Sequenzen

Die Aufmerksamkeitsmechanismen werden häufig in der Sequenzverarbeitung eingesetzt, sind aber aufgrund ihrer Komplexität von O(n²) für lange Sequenzen ungeeignet. Das kürzlich eingeführte neurale Shuffle-Exchange-Netz bietet eine recheneffiziente Alternative und ermöglicht die Modellierung langer Abhängigkeiten in O(n log n)-Zeit. Das Modell ist jedoch ziemlich komplex und beinhaltet ein elaboriertes Gating-Verfahren, das aus der Gated Recurrent Unit abgeleitet ist. In dieser Arbeit stellen wir eine einfache und leichte Variante des Shuffle-Exchange-Netzes vor, die auf einem Residualnetz basiert und GELU (Gaussian Error Linear Unit) sowie Layer-Normalisierung verwendet. Die vorgeschlagene Architektur skaliert nicht nur besser zu längeren Sequenzen, sondern konvergiert auch schneller und liefert bessere Genauigkeit. Sie übertrifft das Shuffle-Exchange-Netz bei der Sprachmodellierungsaufgabe LAMBADA und erzielt den aktuellen Stand der Technik bei der Musikaufzeichnung auf dem MusicNet-Datensatz, wobei sie gleichzeitig effizient im Parameterumfang ist. Wir zeigen, wie man das verbesserte Shuffle-Exchange-Netz mit Faltungsschichten kombinieren kann, um es als nützliches Bauteil in Anwendungen zur Verarbeitung langer Sequenzen zu etablieren.