HyperAIHyperAI
vor einem Monat

Erweitern der Selbst-Aufmerksamkeit mit persistenter Speicherung

Sainbayar Sukhbaatar; Edouard Grave; Guillaume Lample; Herve Jegou; Armand Joulin
Erweitern der Selbst-Aufmerksamkeit mit persistenter Speicherung
Abstract

Transformer-Netzwerke haben wichtige Fortschritte im Bereich der Sprachmodellierung und maschinellen Übersetzung gebracht. Diese Modelle umfassen zwei aufeinanderfolgende Module: eine Feed-Forward-Schicht und eine Selbst-Aufmerksamkeitsschicht (self-attention layer). Die letztere ermöglicht es dem Netzwerk, langfristige Abhängigkeiten zu erfassen und wird oft als entscheidender Faktor für den Erfolg von Transformers angesehen. Auf dieser Intuition aufbauend schlagen wir ein neues Modell vor, das ausschließlich aus Aufmerksamkeitsschichten besteht. Genauer gesagt erweitern wir die Selbst-Aufmerksamkeitsschichten um persistente Speichervektoren, die eine ähnliche Rolle wie die Feed-Forward-Schicht spielen. Dank dieser Vektoren können wir die Feed-Forward-Schicht entfernen, ohne dass sich dies negativ auf die Leistung des Transformers auswirkt. Unsere Evaluierung zeigt die Vorteile unseres Modells anhand standardisierter Benchmarks für Zeichen- und Wortsprachmodellierung.