HyperAIHyperAI

Command Palette

Search for a command to run...

Synthesizer: Die Neubewertung der Selbst-Attention in Transformer-Modellen

Yi Tay Dara Bahri Donald Metzler Da-Cheng Juan Zhe Zhao Che Zheng

Zusammenfassung

Das Skalarprodukt-basierte Self-Attention gilt als zentral und unverzichtbar für moderne State-of-the-Art-Transformer-Modelle. Doch ist es tatsächlich unerlässlich? Diese Arbeit untersucht die wahre Bedeutung und den Beitrag des auf Skalarprodukten basierenden Self-Attention-Mechanismus für die Leistungsfähigkeit von Transformer-Modellen. Durch umfangreiche Experimente stellen wir fest, dass (1) zufällige Alignmentsmatrizen überraschend konkurrenzfähig abschneiden und (2) das Lernen von Aufmerksamkeitsgewichten aus Token-Token-Interaktionen (Query-Key-Interaktionen) zwar nützlich, aber letztlich nicht so entscheidend ist, wie bisher angenommen. Daraufhin schlagen wir \textsc{Synthesizer} vor, ein Modell, das synthetische Aufmerksamkeitsgewichte ohne direkte Token-Token-Interaktionen lernt. In unseren Experimenten zeigen wir zunächst, dass einfache Synthesizer im Vergleich zu herkömmlichen Transformer-Modellen auf einer Vielzahl von Aufgaben – einschließlich maschineller Übersetzung, Sprachmodellierung, Textgenerierung sowie den GLUE- und SuperGLUE-Benchmarks – hochkonkurrenzfähige Ergebnisse erzielen. Wenn Synthesizer mit dem Skalarprodukt-Attention kombiniert werden, übertrifft das resultierende Modell stets die klassischen Transformer. Darüber hinaus führen wir zusätzliche Vergleiche mit Dynamic Convolutions durch und zeigen, dass ein einfacher Random-Synthesizer nicht nur 60 % schneller ist, sondern zudem die Perplexität um 3,5 % relativ verbessert. Schließlich demonstrieren wir, dass einfache faktorisierte Synthesizer die Leistung von Linformers bei reinen Kodierungsaufgaben übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp