HyperAIHyperAI

Command Palette

Search for a command to run...

Kurzzeitiges Fenster-Attention ermöglicht langfristige Speicherung

Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou

Abstract

Neuere Arbeiten zeigen, dass hybride Architekturen, die Schiebefenster-Softmax-Attention-Schichten mit linearen rekurrenten neuronalen Netzwerken (RNN) kombinieren, sowohl die einzelnen Architekturen getrennt betrachtet überlegen sind. Die Auswirkungen der Fensterlänge sowie die Wechselwirkungen zwischen Softmax-Attention und linearen RNN-Schichten bleiben jedoch bisher unterforscht. In dieser Arbeit stellen wir SWAX vor, eine hybride Architektur, die aus Schiebefenster-Attention und xLSTM-basierten linearen RNN-Schichten besteht.Eine überraschende Erkenntnis im Zusammenhang mit SWAX ist, dass größere Schiebefenster die Leistung bei langen Kontexten nicht verbessern. Im Gegenteil: Kurze Fenster fördern eine bessere Ausbildung des Langzeitgedächtnisses der xLSTM, da das Modell weniger auf die Softmax-Attention-Mechanismen zur Abrufung langer Kontexte angewiesen ist.Ein Nachteil kleiner Schiebefenster liegt darin, dass sie die Leistung bei kurzem Kontext beeinträchtigen können – eine Schwäche, die durch Informationen aus moderat größeren Fenstern behoben werden könnte. Um dies zu beheben, trainieren wir SWAX durch stochastische Variation der Fenstergröße, wodurch das Modell gezwungen wird, sowohl ein erweitertes Kontextfenster als auch das xLSTM-Gedächtnis effektiv zu nutzen. SWAX, das mit stochastischen Fenstergrößen trainiert wurde, übertrifft die herkömmliche Fenster-Attention sowohl bei kurzen als auch bei langen Kontextaufgaben deutlich.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp