vor 11 Tagen

Aufmerksamkeit neu gedacht mit Performers

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller

Details der Forschungsarbeit anzeigen

Aufmerksamkeit neu gedacht mit Performers

Abstract

Wir stellen Performers vor, eine Klasse von Transformer-Architekturen, die reguläre (Softmax-) Vollrang-Attention-Transformers mit beweisbarer Genauigkeit schätzen können, jedoch lediglich mit linearer (im Gegensatz zu quadratischer) Raum- und Zeitkomplexität, ohne auf Annahmen wie Sparsamkeit oder Niedrigrangigkeit zurückzugreifen. Um Softmax-Attention-Kerne zu approximieren, nutzen Performers einen neuartigen Ansatz namens Fast Attention Via positive Orthogonal Random features (FAVOR+), der möglicherweise auch unabhängig von der vorliegenden Arbeit für skalierbare Kernel-Methoden von Interesse ist. FAVOR+ kann zudem effizient zur Modellierung von kernelisierbaren Attention-Mechanismen jenseits von Softmax eingesetzt werden. Diese repräsentative Stärke ist entscheidend, um erstmals auf großskaligen Aufgaben – jenseits der Reichweite herkömmlicher Transformers – eine präzise Vergleichbarkeit von Softmax mit anderen Kernen herzustellen und optimale Attention-Kerne zu untersuchen. Performers sind lineare Architekturen, die vollständig mit herkömmlichen Transformers kompatibel sind und über starke theoretische Garantien verfügen: unverzerrte oder nahezu unverzerrte Schätzung der Attention-Matrix, gleichmäßige Konvergenz und geringe Schätzvarianz. Wir haben Performers an einer breiten Palette von Aufgaben getestet, die von der Pixel-Vorhersage über Textmodelle bis hin zur Protein-Sequenzmodellierung reichen. Unsere Ergebnisse zeigen wettbewerbsfähige Leistungen gegenüber anderen untersuchten effizienten sparsen und dichten Attention-Methoden und belegen die Wirksamkeit des neuen Attention-Lernparadigmas, das von Performers genutzt wird.