vor einem Monat

Faktorisierungs-Tricks für LSTM-Netze

Oleksii Kuchaiev; Boris Ginsburg

Abstract

Wir stellen zwei einfache Methoden vor, um die Anzahl der Parameter zu reduzieren und das Training großer Long Short-Term Memory (LSTM)-Netze zu beschleunigen: Die erste Methode ist die „designbasierte Matrixfaktorisierung“ der LSTM-Matrix in das Produkt von zwei kleineren Matrizen, und die zweite Methode ist die Partitionierung der LSTM-Matrix, ihrer Eingaben und Zustände in unabhängige Gruppen. Beide Ansätze ermöglichen es uns, große LSTM-Netze erheblich schneller bis nahe an den Stand der Technik zu trainieren, während gleichzeitig deutlich weniger RNN-Parameter verwendet werden.