vor 2 Monaten

End-to-End Memory Networks In den folgenden Übersetzungen wird der Begriff „End-to-End Memory Networks“ verwendet, um die spezifische Architektur und Funktionsweise dieser neuronalen Netzwerke zu beschreiben. Diese Netzwerke sind darauf ausgelegt, sequenzielle Daten zu verarbeiten und langfristige Abhängigkeiten zu lernen, was sie für Aufgaben wie maschinelles Übersetzen, Textgenerierung und Dialogsysteme besonders geeignet macht.

Sainbayar Sukhbaatar; Arthur Szlam; Jason Weston; Rob Fergus

Abstract

Wir stellen ein neuronales Netzwerk vor, das ein rekurrentes Aufmerksamkeitsmodell über einem möglicherweise großen externen Speicher verwendet. Die Architektur ist eine Form des Memory Networks (Weston et al., 2015), unterscheidet sich jedoch von dem Modell in dieser Arbeit dadurch, dass sie end-to-end trainiert wird und daher während des Trainings erheblich weniger Überwachung benötigt, was ihre Anwendbarkeit in realistischen Szenarien erhöht. Es kann auch als Erweiterung des RNNsearch angesehen werden, bei der mehrere Rechenschritte (Hops) pro Ausgabezeichen durchgeführt werden. Die Flexibilität des Modells ermöglicht es uns, es auf vielfältige Aufgaben anzuwenden, wie etwa synthetische Fragebeantwortung und Sprachmodellierung. Bei der erstgenannten Aufgabe ist unser Ansatz mit den Memory Networks vergleichbar, aber mit weniger Überwachung. Bei der letzteren zeigen unsere Ergebnisse auf den Datensätzen Penn TreeBank und Text8 eine vergleichbare Leistung mit RNNs und LSTMs. In beiden Fällen demonstrieren wir, dass das zentrale Konzept der mehrfachen Rechenschritte (multiple computational hops) zu verbesserten Resultaten führt.