HyperAIHyperAI

Command Palette

Search for a command to run...

Erweitern der Selbst-Aufmerksamkeit mit persistenter Speicherung

Sainbayar Sukhbaatar Edouard Grave Guillaume Lample Herve Jegou Armand Joulin

Zusammenfassung

Transformer-Netzwerke haben wichtige Fortschritte im Bereich der Sprachmodellierung und maschinellen Übersetzung gebracht. Diese Modelle umfassen zwei aufeinanderfolgende Module: eine Feed-Forward-Schicht und eine Selbst-Aufmerksamkeitsschicht (self-attention layer). Die letztere ermöglicht es dem Netzwerk, langfristige Abhängigkeiten zu erfassen und wird oft als entscheidender Faktor für den Erfolg von Transformers angesehen. Auf dieser Intuition aufbauend schlagen wir ein neues Modell vor, das ausschließlich aus Aufmerksamkeitsschichten besteht. Genauer gesagt erweitern wir die Selbst-Aufmerksamkeitsschichten um persistente Speichervektoren, die eine ähnliche Rolle wie die Feed-Forward-Schicht spielen. Dank dieser Vektoren können wir die Feed-Forward-Schicht entfernen, ohne dass sich dies negativ auf die Leistung des Transformers auswirkt. Unsere Evaluierung zeigt die Vorteile unseres Modells anhand standardisierter Benchmarks für Zeichen- und Wortsprachmodellierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp