vor 2 Monaten

Lange ausdrucksstarke Erinnerung für die Modellierung von Sequenzen

T. Konstantin Rusch; Siddhartha Mishra; N. Benjamin Erichson; Michael W. Mahoney

Abstract

Wir schlagen eine neuartige Methode vor, die als Long Expressive Memory (LEM) bezeichnet wird, zur Lernung von langfristigen sequentiellen Abhängigkeiten. LEM ist gradientenbasiert und kann sequenzielle Aufgaben mit sehr langfristigen Abhängigkeiten effizient verarbeiten. Zudem ist sie ausreichend ausdrucksstark, um komplizierte Eingabe-Ausgabe-Abbildungen zu lernen. Um LEM abzuleiten, betrachten wir ein System multiskaliger gewöhnlicher Differentialgleichungen sowie eine geeignete Zeitdiskretisierung dieses Systems. Für LEM leiten wir strenge Schranken her, um das Problem der explodierenden und verschwindenden Gradienten zu mildern, eine bekannte Herausforderung für gradientenbasierte rekurrente sequentielle Lernmethoden. Wir beweisen auch, dass LEM eine große Klasse dynamischer Systeme mit hoher Genauigkeit approximieren kann. Unsere empirischen Ergebnisse, die von Bild- und Zeitreihenklassifikation über die Vorhersage dynamischer Systeme bis hin zu Spracherkennung und Sprachmodellierung reichen, zeigen, dass LEM den aktuellen Stand der Technik in Form von rekurrenten neuronalen Netzen, geregten rekurrenten Einheiten und Long Short-Term Memory-Modellen übertrifft.