vor 9 Tagen

Combiner: Vollständiger Aufmerksamkeits-Transformer mit sparsen Berechnungskosten

Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai

Abstract

Transformers bieten eine Klasse ausdrucksstarker Architekturen, die sich besonders effektiv für die Modellierung von Sequenzen eignen. Ein zentrales Limitierung der Transformers liegt jedoch in ihrer quadratischen Speicher- und Zeitkomplexität $\mathcal{O}(L^2)$ bezüglich der Sequenzlänge in den Aufmerksamkeitslagen, was ihre Anwendung bei extrem langen Sequenzen einschränkt. Die meisten bestehenden Ansätze versuchen, die Kosten durch Sparsitätsannahmen oder Niedrigrang-Annahmen in der Aufmerksamkeitsmatrix zu reduzieren, opfern dabei jedoch oft Ausdruckskraft. Stattdessen schlagen wir Combiner vor, eine Methode, die in jeder Aufmerksamkeitskopf-Unit die volle Aufmerksamkeitsfähigkeit bewahrt, gleichzeitig aber niedrige Berechnungs- und Speicherkomplexität beibehält. Der zentrale Ansatz besteht darin, den Selbst-Aufmerksamkeitsmechanismus als bedingte Erwartung der Embeddings an jeder Position zu interpretieren und die bedingte Verteilung mittels einer strukturierten Faktorisierung zu approximieren. Jede Position kann dabei auf alle anderen Positionen direkt oder indirekt über Aufmerksamkeit zu Abstraktionen zugreifen, die wiederum bedingte Erwartungen der Embeddings aus entsprechenden lokalen Regionen darstellen. Wir zeigen, dass die meisten in bestehenden sparsen Transformers verwendeten sparsen Aufmerksamkeitsmuster die Gestaltung einer solchen Faktorisierung für vollständige Aufmerksamkeit inspirieren können, was eine sub-quadratische Kostenordnung ($\mathcal{O}(L\log(L))$ oder $\mathcal{O}(L\sqrt{L})$) ermöglicht. Combiner ist eine direkte Ersatzkomponente für Aufmerksamkeitslagen in bestehenden Transformers und lässt sich problemlos in gängigen Frameworks implementieren. Eine experimentelle Evaluierung sowohl auf autoregressiven als auch auf bidirektionalen Sequenzaufgaben belegt die Wirksamkeit des Ansatzes und erzielt state-of-the-art Ergebnisse bei mehreren Aufgaben im Bereich Bild- und Textmodellierung.