Verbesserung von neuronalen Sprachmodellen durch einen kontinuierlichen Cache

Wir schlagen eine Erweiterung für neuronale Netzwerk-Sprachmodelle vor, um ihre Vorhersage an die jüngste Geschichte anzupassen. Unser Modell ist eine vereinfachte Version von speichererweiterten Netzen, die vergangene versteckte Aktivierungen als Speicher speichert und über ein Skalarprodukt mit der aktuellen versteckten Aktivierung darauf zugreift. Dieses Mechanismus ist sehr effizient und skaliert auf sehr große Speicherkapazitäten. Zudem ziehen wir einen Vergleich zwischen der Verwendung externen Speichers in neuronalen Netzwerken und den Cache-Modellen, die bei zählbasierten Sprachmodellen eingesetzt werden. Wir zeigen anhand mehrerer Sprachmodell-Datensätze, dass unser Ansatz erheblich besser abschneidet als aktuelle speichererweiterte Netze.