HyperAIHyperAI

Command Palette

Search for a command to run...

Residuelle Shuffle-Exchange-Netze für die schnelle Verarbeitung langer Sequenzen

Andis Draguns; Emīls Ozoliņš; Agris Šostaks; Matīss Apinis; Kārlis Freivalds

Zusammenfassung

Die Aufmerksamkeitsmechanismen werden häufig in der Sequenzverarbeitung eingesetzt, sind aber aufgrund ihrer Komplexität von O(n²) für lange Sequenzen ungeeignet. Das kürzlich eingeführte neurale Shuffle-Exchange-Netz bietet eine recheneffiziente Alternative und ermöglicht die Modellierung langer Abhängigkeiten in O(n log n)-Zeit. Das Modell ist jedoch ziemlich komplex und beinhaltet ein elaboriertes Gating-Verfahren, das aus der Gated Recurrent Unit abgeleitet ist. In dieser Arbeit stellen wir eine einfache und leichte Variante des Shuffle-Exchange-Netzes vor, die auf einem Residualnetz basiert und GELU (Gaussian Error Linear Unit) sowie Layer-Normalisierung verwendet. Die vorgeschlagene Architektur skaliert nicht nur besser zu längeren Sequenzen, sondern konvergiert auch schneller und liefert bessere Genauigkeit. Sie übertrifft das Shuffle-Exchange-Netz bei der Sprachmodellierungsaufgabe LAMBADA und erzielt den aktuellen Stand der Technik bei der Musikaufzeichnung auf dem MusicNet-Datensatz, wobei sie gleichzeitig effizient im Parameterumfang ist. Wir zeigen, wie man das verbesserte Shuffle-Exchange-Netz mit Faltungsschichten kombinieren kann, um es als nützliches Bauteil in Anwendungen zur Verarbeitung langer Sequenzen zu etablieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Residuelle Shuffle-Exchange-Netze für die schnelle Verarbeitung langer Sequenzen | Paper | HyperAI