HyperAIHyperAI
vor 4 Monaten

Parallelisierung der Legendre-Memory-Unit-Trainings

Narsimha Chilkuri; Chris Eliasmith
Parallelisierung der Legendre-Memory-Unit-Trainings
Abstract

Kürzlich wurde ein neues rekurrentes neuronales Netzwerk (RNN) namens Legendre Memory Unit (LMU) vorgeschlagen und es konnte gezeigt werden, dass es auf mehreren Benchmark-Datensätzen den aktuellen Stand der Technik erreicht. In dieser Arbeit nutzen wir das lineare zeitinvariante (LTI) Gedächtnis-Element der LMU, um eine vereinfachte Variante zu konstruieren, die während des Trainings parallelisiert werden kann (und dennoch als RNN während der Inferenz ausgeführt wird), wodurch eine bekannte Einschränkung beim Training von RNNs auf GPUs überwunden wird. Wir zeigen, dass diese Umformulierung, die die Parallelisierung unterstützt und generell auf jedes tiefes Netzwerk angewendet werden kann, dessen rekurrente Komponenten linear sind, das Training bis zu 200-mal schneller macht. Zweitens, um ihre Nützlichkeit zu validieren, vergleichen wir ihre Leistung mit der des ursprünglichen LMUs sowie einer Vielzahl veröffentlichter LSTM- und Transformer-Netze auf sieben Benchmarks, die von psMNIST bis hin zur Sentimentanalyse und maschinellen Übersetzung reichen. Wir demonstrieren, dass unsere Modelle auf allen Datensätzen eine überlegene Leistung erzielen und oft weniger Parameter verwenden. Zum Beispiel setzt unser LMU ein neues Referenzergebnis in psMNIST und verwendet nur halb so viele Parameter wie DistilBERT- und LSTM-Modelle bei der Sentimentanalyse im IMDB-Datensatz.