HyperAIHyperAI
vor 2 Monaten

UnICORNN: Ein rekurrentes Modell zur Lernung sehr langer zeitlicher Abhängigkeiten

T. Konstantin Rusch; Siddhartha Mishra
UnICORNN: Ein rekurrentes Modell zur Lernung sehr langer zeitlicher Abhängigkeiten
Abstract

Die Gestaltung von rekurrenten Neuronalen Netzen (RNNs), um sequentielle Eingaben mit langfristigen Abhängigkeiten genauer zu verarbeiten, ist aufgrund des Problems der explodierenden und verschwindenden Gradienten sehr herausfordernd. Um dieses Problem zu überwinden, schlagen wir eine neuartige RNN-Architektur vor, die auf einer strukturerhaltenden Diskretisierung eines Hamilton-Systems zweiter Ordnung partieller Differentialgleichungen basiert, das Oszillatornetzwerke modelliert. Das resultierende RNN ist schnell, zeitlich invertierbar, speichereffizient und wir leiten strenge Schranken für die Gradienten des verborgenen Zustands her, um den Beweis für die Milderung des Problems der explodierenden und verschwindenden Gradienten zu führen. Eine Reihe von Experimenten wird präsentiert, um zu zeigen, dass das vorgeschlagene RNN in verschiedenen Lernaufgaben mit (sehr) langfristigen Abhängigkeiten den Stand der Technik darstellt.

UnICORNN: Ein rekurrentes Modell zur Lernung sehr langer zeitlicher Abhängigkeiten | Neueste Forschungsarbeiten | HyperAI