HyperAIHyperAI
vor 17 Tagen

Mega: Moving Average Equipped Gated Attention

Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer
Mega: Moving Average Equipped Gated Attention
Abstract

Die Gestaltungsoptionen im Transformer-Attention-Mechanismus, einschließlich schwacher induktiver Voreingenommenheit und quadratischer Berechnungskomplexität, haben die Anwendung für die Modellierung langer Sequenzen eingeschränkt. In diesem Paper stellen wir Mega vor – einen einfachen, theoretisch fundierten, einheitlichen, gateten Attention-Mechanismus, der mit einem (exponentiellen) gleitenden Durchschnitt ausgestattet ist, um induktive Voreingenommenheit bezüglich positionssensitiver lokaler Abhängigkeiten in den positionsunabhängigen Attention-Mechanismus einzubringen. Außerdem schlagen wir eine Variante von Mega vor, die eine lineare Zeit- und Speicherkomplexität bietet, jedoch nur eine minimale Qualitätsminderung aufweist, indem die gesamte Sequenz effizient in mehrere Blöcke fester Länge aufgeteilt wird. Umfangreiche Experimente auf einer Vielzahl von Benchmark-Aufgaben zur Sequenzmodellierung – einschließlich des Long Range Arena, maschinellen Übersetzung, autoregressiver Sprachmodellierung sowie Bild- und Sprachklassifikation – zeigen, dass Mega signifikante Verbesserungen gegenüber anderen Sequenzmodellen erzielt, einschließlich Transformer-Varianten und neuer State-Space-Modelle.