HyperAIHyperAI

Command Palette

Search for a command to run...

Mega: Moving Average Equipped Gated Attention

Xuezhe Ma Chunting Zhou Xiang Kong Junxian He Liangke Gui Graham Neubig Jonathan May Luke Zettlemoyer

Zusammenfassung

Die Gestaltungsoptionen im Transformer-Attention-Mechanismus, einschließlich schwacher induktiver Voreingenommenheit und quadratischer Berechnungskomplexität, haben die Anwendung für die Modellierung langer Sequenzen eingeschränkt. In diesem Paper stellen wir Mega vor – einen einfachen, theoretisch fundierten, einheitlichen, gateten Attention-Mechanismus, der mit einem (exponentiellen) gleitenden Durchschnitt ausgestattet ist, um induktive Voreingenommenheit bezüglich positionssensitiver lokaler Abhängigkeiten in den positionsunabhängigen Attention-Mechanismus einzubringen. Außerdem schlagen wir eine Variante von Mega vor, die eine lineare Zeit- und Speicherkomplexität bietet, jedoch nur eine minimale Qualitätsminderung aufweist, indem die gesamte Sequenz effizient in mehrere Blöcke fester Länge aufgeteilt wird. Umfangreiche Experimente auf einer Vielzahl von Benchmark-Aufgaben zur Sequenzmodellierung – einschließlich des Long Range Arena, maschinellen Übersetzung, autoregressiver Sprachmodellierung sowie Bild- und Sprachklassifikation – zeigen, dass Mega signifikante Verbesserungen gegenüber anderen Sequenzmodellen erzielt, einschließlich Transformer-Varianten und neuer State-Space-Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp