Gating Revisited: Tiefgangige Mehrschicht-RNNs, die trainiert werden können

Wir schlagen eine neue stapelbare rekurrente Zelle (STAR) für rekurrente Neuronale Netze (RNNs) vor, die weniger Parameter als die weit verbreiteten LSTM- und GRU-Zellen aufweist und gleichzeitig robuster gegenüber verschwindenden oder explodierenden Gradienten ist. Das Stapeln von rekurrenten Einheiten zu tiefen Architekturen leidet an zwei wesentlichen Einschränkungen: (i) viele rekurrente Zellen (z.B. LSTMs) sind in Bezug auf Parameter und Rechenressourcen kostspielig; und (ii) tiefe RNNs neigen während des Trainings dazu, verschwindende oder explodierende Gradienten zu erzeugen. Wir untersuchen das Training von mehrschichtigen RNNs und prüfen die Größe der Gradienten, während sie sich in der "vertikalen" Richtung durch das Netzwerk fortpflanzen. Unsere Analyse zeigt, dass die Gradienten je nach Struktur der grundlegenden rekurrenten Einheit systematisch abgeschwächt oder verstärkt werden. Auf Basis dieser Analyse entwerfen wir eine neue Art von Gatterzelle, die die Gradienteinstellung besser beibehält. Wir überprüfen unser Design an einer großen Anzahl von Sequenzmodellierungsaufgaben und zeigen, dass die vorgeschlagene STAR-Zelle es ermöglicht, tiefere rekurrente Architekturen aufzubauen und zu trainieren, was letztendlich zu einer verbesserten Leistung führt und gleichzeitig rechnerisch effizienter ist.