Aufmerksamkeit neu gedacht mit Performers

Wir stellen Performers vor, eine Klasse von Transformer-Architekturen, die reguläre (Softmax-) Vollrang-Attention-Transformers mit beweisbarer Genauigkeit schätzen können, jedoch lediglich mit linearer (im Gegensatz zu quadratischer) Raum- und Zeitkomplexität, ohne auf Annahmen wie Sparsamkeit oder Niedrigrangigkeit zurückzugreifen. Um Softmax-Attention-Kerne zu approximieren, nutzen Performers einen neuartigen Ansatz namens Fast Attention Via positive Orthogonal Random features (FAVOR+), der möglicherweise auch unabhängig von der vorliegenden Arbeit für skalierbare Kernel-Methoden von Interesse ist. FAVOR+ kann zudem effizient zur Modellierung von kernelisierbaren Attention-Mechanismen jenseits von Softmax eingesetzt werden. Diese repräsentative Stärke ist entscheidend, um erstmals auf großskaligen Aufgaben – jenseits der Reichweite herkömmlicher Transformers – eine präzise Vergleichbarkeit von Softmax mit anderen Kernen herzustellen und optimale Attention-Kerne zu untersuchen. Performers sind lineare Architekturen, die vollständig mit herkömmlichen Transformers kompatibel sind und über starke theoretische Garantien verfügen: unverzerrte oder nahezu unverzerrte Schätzung der Attention-Matrix, gleichmäßige Konvergenz und geringe Schätzvarianz. Wir haben Performers an einer breiten Palette von Aufgaben getestet, die von der Pixel-Vorhersage über Textmodelle bis hin zur Protein-Sequenzmodellierung reichen. Unsere Ergebnisse zeigen wettbewerbsfähige Leistungen gegenüber anderen untersuchten effizienten sparsen und dichten Attention-Methoden und belegen die Wirksamkeit des neuen Attention-Lernparadigmas, das von Performers genutzt wird.