vor 2 Monaten

Geschnittene Rekurrente Neuronale Netze

Zeping Yu; Gongshen Liu

Abstract

Rekurrente Neuronale Netze haben in vielen NLP-Aufgaben großartige Erfolge erzielt. Aufgrund ihrer rekurrenten Struktur haben sie jedoch Schwierigkeiten bei der Parallelisierung, wodurch das Training von RNNs viel Zeit in Anspruch nimmt. In dieser Arbeit stellen wir geschnittene rekurrente neuronale Netze (SRNNs) vor, die durch das Zerschneiden von Sequenzen in viele Teilsequenzen parallelisiert werden können. SRNNs verfügen über die Fähigkeit, hochwertige Informationen durch mehrere Schichten mit wenigen zusätzlichen Parametern zu extrahieren. Wir zeigen, dass die Standard-RNN ein Spezialfall der SRNN ist, wenn wir lineare Aktivierungsfunktionen verwenden. Ohne die rekurrenten Einheiten zu ändern, sind SRNNs 136-mal schneller als Standard-RNNs und könnten noch schneller sein, wenn wir längere Sequenzen trainieren. Experimente an sechs großen Sentiment-Analyse-Datensätzen zeigen, dass SRNNs eine bessere Leistung als Standard-RNNs erzielen.