HyperAIHyperAI
vor 2 Monaten

AntisymmetricRNN: Eine dynamische Systemansicht auf rekurrente Neuronale Netze

Bo Chang; Minmin Chen; Eldad Haber; Ed H. Chi
AntisymmetricRNN: Eine dynamische Systemansicht auf rekurrente Neuronale Netze
Abstract

Recurrent Neural Networks (RNNs) haben in der Modellierung sequentieller Daten weit verbreitete Anwendung gefunden. Das Lernen von langfristigen Abhängigkeiten mit diesen Modellen bleibt jedoch schwierig aufgrund explodierender oder verschwindender Gradienten. In dieser Arbeit stellen wir Verbindungen zwischen rekurrenten Netzen und gewöhnlichen Differentialgleichungen her. Unter diesem theoretischen Rahmen wird eine spezielle Form von rekurrenten Netzen, das AntisymmetricRNN, vorgeschlagen, welche dank der Stabilitätseigenschaft seiner zugrundeliegenden Differentialgleichung langfristige Abhängigkeiten erfassen kann. Bestehende Ansätze zur Verbesserung der Trainierbarkeit von RNNs verursachen oft erhebliche Rechenaufwände. Im Gegensatz dazu erreicht das AntisymmetricRNN durch seine Konstruktion dasselbe Ziel. Wir demonstrieren den Vorteil dieser neuen Architektur durch umfangreiche Simulationen und Experimente. Das AntisymmetricRNN zeigt viel vorhersehbarere Dynamiken. Es übertrifft herkömmliche LSTM-Modelle bei Aufgaben, die ein langes Gedächtnis erfordern, und erreicht vergleichbare Leistungen bei Aufgaben, bei denen kurzfristige Abhängigkeiten dominieren, obwohl es viel einfacher ist.

AntisymmetricRNN: Eine dynamische Systemansicht auf rekurrente Neuronale Netze | Neueste Forschungsarbeiten | HyperAI