Command Palette
Search for a command to run...
Kurzzeitiges Fenster-Attention ermöglicht langfristige Speicherung
Kurzzeitiges Fenster-Attention ermöglicht langfristige Speicherung
Loïc Cabannes Maximilian Beck Gergely Szilvasy Matthijs Douze Maria Lomeli Jade Copet Pierre-Emmanuel Mazaré Gabriel Synnaeve Hervé Jégou
Abstract
Neuere Arbeiten zeigen, dass hybride Architekturen, die Schiebefenster-Softmax-Attention-Schichten mit linearen rekurrenten neuronalen Netzwerken (RNN) kombinieren, sowohl die einzelnen Architekturen getrennt betrachtet überlegen sind. Die Auswirkungen der Fensterlänge sowie die Wechselwirkungen zwischen Softmax-Attention und linearen RNN-Schichten bleiben jedoch bisher unterforscht. In dieser Arbeit stellen wir SWAX vor, eine hybride Architektur, die aus Schiebefenster-Attention und xLSTM-basierten linearen RNN-Schichten besteht.Eine überraschende Erkenntnis im Zusammenhang mit SWAX ist, dass größere Schiebefenster die Leistung bei langen Kontexten nicht verbessern. Im Gegenteil: Kurze Fenster fördern eine bessere Ausbildung des Langzeitgedächtnisses der xLSTM, da das Modell weniger auf die Softmax-Attention-Mechanismen zur Abrufung langer Kontexte angewiesen ist.Ein Nachteil kleiner Schiebefenster liegt darin, dass sie die Leistung bei kurzem Kontext beeinträchtigen können – eine Schwäche, die durch Informationen aus moderat größeren Fenstern behoben werden könnte. Um dies zu beheben, trainieren wir SWAX durch stochastische Variation der Fenstergröße, wodurch das Modell gezwungen wird, sowohl ein erweitertes Kontextfenster als auch das xLSTM-Gedächtnis effektiv zu nutzen. SWAX, das mit stochastischen Fenstergrößen trainiert wurde, übertrifft die herkömmliche Fenster-Attention sowohl bei kurzen als auch bei langen Kontextaufgaben deutlich.