HyperAIHyperAI
vor 2 Monaten

Verbesserung des Gating-Mechanismus von Rekurrenten Neuronalen Netzen

Albert Gu; Caglar Gulcehre; Tom Le Paine; Matt Hoffman; Razvan Pascanu
Verbesserung des Gating-Mechanismus von Rekurrenten Neuronalen Netzen
Abstract

Gating-Mechanismen werden in neuronalen Netzmodellen weit verbreitet eingesetzt, wo sie es ermöglichen, dass Gradienten einfacher durch die Tiefe oder über die Zeit zurückpropagiert werden. Ihre Sättigungs-Eigenschaft führt jedoch zu eigenen Problemen. Zum Beispiel müssen die Gatter in rekurrenten Modellen Ausgaben nahe bei 1 haben, um Informationen über lange Zeitspannen zu verbreiten. Dies erfordert, dass sie in ihrem Sättigungs-Bereich operieren, was das gradientenbasierte Lernen des Gattermechanismus erschwert. Wir begegnen diesem Problem, indem wir zwei synergetische Modifikationen des standardmäßigen Gattermechanismus ableiten, die einfach umzusetzen sind, keine zusätzlichen Hyperparameter einführen und das Lernen der Gatter verbessern, wenn diese nahe am Sättigungspunkt sind. Wir zeigen auf, wie diese Änderungen in Beziehung stehen und alternative kürzlich vorgeschlagene Gattermechanismen wie Chrono-Initialisierung und geordnete Neuronen (Ordered Neurons) verbessern. Empirisch verbessern unsere einfachen Gattermechanismen die Leistung von rekurrenten Modellen robust auf einem breiten Spektrum von Anwendungen, einschließlich synthetischer Merkaufgaben, sequentieller Bildklassifizierung, Sprachmodellierung und Reinforcement Learning, insbesondere wenn langfristige Abhängigkeiten beteiligt sind.

Verbesserung des Gating-Mechanismus von Rekurrenten Neuronalen Netzen | Neueste Forschungsarbeiten | HyperAI