HyperAIHyperAI
vor 11 Tagen

Synthesizer: Die Neubewertung der Selbst-Attention in Transformer-Modellen

Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
Synthesizer: Die Neubewertung der Selbst-Attention in Transformer-Modellen
Abstract

Das Skalarprodukt-basierte Self-Attention gilt als zentral und unverzichtbar für moderne State-of-the-Art-Transformer-Modelle. Doch ist es tatsächlich unerlässlich? Diese Arbeit untersucht die wahre Bedeutung und den Beitrag des auf Skalarprodukten basierenden Self-Attention-Mechanismus für die Leistungsfähigkeit von Transformer-Modellen. Durch umfangreiche Experimente stellen wir fest, dass (1) zufällige Alignmentsmatrizen überraschend konkurrenzfähig abschneiden und (2) das Lernen von Aufmerksamkeitsgewichten aus Token-Token-Interaktionen (Query-Key-Interaktionen) zwar nützlich, aber letztlich nicht so entscheidend ist, wie bisher angenommen. Daraufhin schlagen wir \textsc{Synthesizer} vor, ein Modell, das synthetische Aufmerksamkeitsgewichte ohne direkte Token-Token-Interaktionen lernt. In unseren Experimenten zeigen wir zunächst, dass einfache Synthesizer im Vergleich zu herkömmlichen Transformer-Modellen auf einer Vielzahl von Aufgaben – einschließlich maschineller Übersetzung, Sprachmodellierung, Textgenerierung sowie den GLUE- und SuperGLUE-Benchmarks – hochkonkurrenzfähige Ergebnisse erzielen. Wenn Synthesizer mit dem Skalarprodukt-Attention kombiniert werden, übertrifft das resultierende Modell stets die klassischen Transformer. Darüber hinaus führen wir zusätzliche Vergleiche mit Dynamic Convolutions durch und zeigen, dass ein einfacher Random-Synthesizer nicht nur 60 % schneller ist, sondern zudem die Perplexität um 3,5 % relativ verbessert. Schließlich demonstrieren wir, dass einfache faktorisierte Synthesizer die Leistung von Linformers bei reinen Kodierungsaufgaben übertrifft.

Synthesizer: Die Neubewertung der Selbst-Attention in Transformer-Modellen | Neueste Forschungsarbeiten | HyperAI