HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von neuronalen Sprachmodellen durch einen kontinuierlichen Cache

Edouard Grave; Armand Joulin; Nicolas Usunier

Zusammenfassung

Wir schlagen eine Erweiterung für neuronale Netzwerk-Sprachmodelle vor, um ihre Vorhersage an die jüngste Geschichte anzupassen. Unser Modell ist eine vereinfachte Version von speichererweiterten Netzen, die vergangene versteckte Aktivierungen als Speicher speichert und über ein Skalarprodukt mit der aktuellen versteckten Aktivierung darauf zugreift. Dieses Mechanismus ist sehr effizient und skaliert auf sehr große Speicherkapazitäten. Zudem ziehen wir einen Vergleich zwischen der Verwendung externen Speichers in neuronalen Netzwerken und den Cache-Modellen, die bei zählbasierten Sprachmodellen eingesetzt werden. Wir zeigen anhand mehrerer Sprachmodell-Datensätze, dass unser Ansatz erheblich besser abschneidet als aktuelle speichererweiterte Netze.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp