HyperAIHyperAI

Command Palette

Search for a command to run...

Erweiterte rekurrente Neuronale Netze

Shiyu Chang Yang Zhang Wei Han Mo Yu Xiaoxiao Guo Wei Tan Xiaodong Cui Michael Witbrock Mark Hasegawa-Johnson Thomas S. Huang

Zusammenfassung

Das Lernen mit rekurrenten Neuronalen Netzen (RNNs) an langen Sequenzen ist eine notorisch schwierige Aufgabe. Es gibt drei Hauptherausforderungen: 1) komplexe Abhängigkeiten, 2) verschwindende und explodierende Gradienten und 3) effiziente Parallelisierung. In dieser Arbeit stellen wir eine einfache, aber effektive RNN-Verbindungsstruktur vor, die DilatedRNN, die gleichzeitig alle diese Herausforderungen angeht. Die vorgeschlagene Architektur zeichnet sich durch mehrschichtige dilatierte rekurrente Skip-Verbindungen aus und kann flexibel mit verschiedenen RNN-Zellen kombiniert werden. Darüber hinaus reduziert die DilatedRNN die Anzahl der benötigten Parameter erheblich und verbessert die Trainings-effizienz stark, während sie den Stand der Technik in Aufgaben mit sehr langfristigen Abhängigkeiten erreicht (selbst bei Standard-RNN-Zellen). Um eine theoriebasierte Quantifizierung der Vorteile der Architektur zu liefern, führen wir ein Merkmal für die Speicherkapazität ein, die durchschnittliche rekurrente Länge, die für RNNs mit langen Skip-Verbindungen besser geeignet ist als bestehende Maße. Wir beweisen streng die Vorteile der DilatedRNN über andere rekurrente neuronale Architekturen. Der Code unserer Methode ist öffentlich unter https://github.com/code-terminator/DilatedRNN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Erweiterte rekurrente Neuronale Netze | Paper | HyperAI