Quasi-Rekurrente Neuronale Netze

Rekurrente Neuronale Netze sind ein leistungsfähiges Werkzeug zur Modellierung sequentieller Daten, aber die Abhängigkeit der Berechnung jedes Zeitpunkts von der Ausgabe des vorherigen Zeitpunkts begrenzt die Parallelität und macht RNNs für sehr lange Sequenzen unhandlich. Wir stellen quasi-rekurrente Neuronale Netze (QRNNs) vor, einen Ansatz zur Modellierung neuronaler Sequenzen, der konvolutorische Schichten abwechselt, die parallel über alle Zeitpunkte angewendet werden können, und eine minimalistische rekurrente Pooling-Funktion, die parallel über alle Kanäle angewendet wird. Trotz des Fehlens von trainierbaren rekurrenten Schichten haben gestapelte QRNNs eine bessere Vorhersagegenauigkeit als gestapelte LSTMs gleicher verborgener Größe. Aufgrund ihrer erhöhten Parallelität sind sie bis zu 16-mal schneller in der Trainings- und Testphase. Experimente zum Sprachmodellieren, Sentiment-Klassifizierung und charakterbasierten neuronalen Maschinentranslation zeigen diese Vorteile und unterstreichen die Eignung von QRNNs als grundlegendes Bauteil für verschiedene sequentielle Aufgaben.