HyperAIHyperAI

Command Palette

Search for a command to run...

Gating Revisited: Tiefgangige Mehrschicht-RNNs, die trainiert werden können

Mehmet Ozgur Turkoglu Stefano D’Aronco Jan Dirk Wegner Konrad Schindler

Zusammenfassung

Wir schlagen eine neue stapelbare rekurrente Zelle (STAR) für rekurrente Neuronale Netze (RNNs) vor, die weniger Parameter als die weit verbreiteten LSTM- und GRU-Zellen aufweist und gleichzeitig robuster gegenüber verschwindenden oder explodierenden Gradienten ist. Das Stapeln von rekurrenten Einheiten zu tiefen Architekturen leidet an zwei wesentlichen Einschränkungen: (i) viele rekurrente Zellen (z.B. LSTMs) sind in Bezug auf Parameter und Rechenressourcen kostspielig; und (ii) tiefe RNNs neigen während des Trainings dazu, verschwindende oder explodierende Gradienten zu erzeugen. Wir untersuchen das Training von mehrschichtigen RNNs und prüfen die Größe der Gradienten, während sie sich in der "vertikalen" Richtung durch das Netzwerk fortpflanzen. Unsere Analyse zeigt, dass die Gradienten je nach Struktur der grundlegenden rekurrenten Einheit systematisch abgeschwächt oder verstärkt werden. Auf Basis dieser Analyse entwerfen wir eine neue Art von Gatterzelle, die die Gradienteinstellung besser beibehält. Wir überprüfen unser Design an einer großen Anzahl von Sequenzmodellierungsaufgaben und zeigen, dass die vorgeschlagene STAR-Zelle es ermöglicht, tiefere rekurrente Architekturen aufzubauen und zu trainieren, was letztendlich zu einer verbesserten Leistung führt und gleichzeitig rechnerisch effizienter ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp