HyperAIHyperAI

Command Palette

Search for a command to run...

Combiner: Vollständiger Aufmerksamkeits-Transformer mit sparsen Berechnungskosten

Hongyu Ren Hanjun Dai Zihang Dai Mengjiao Yang Jure Leskovec Dale Schuurmans Bo Dai

Zusammenfassung

Transformers bieten eine Klasse ausdrucksstarker Architekturen, die sich besonders effektiv für die Modellierung von Sequenzen eignen. Ein zentrales Limitierung der Transformers liegt jedoch in ihrer quadratischen Speicher- und Zeitkomplexität O(L2)\mathcal{O}(L^2)O(L2) bezüglich der Sequenzlänge in den Aufmerksamkeitslagen, was ihre Anwendung bei extrem langen Sequenzen einschränkt. Die meisten bestehenden Ansätze versuchen, die Kosten durch Sparsitätsannahmen oder Niedrigrang-Annahmen in der Aufmerksamkeitsmatrix zu reduzieren, opfern dabei jedoch oft Ausdruckskraft. Stattdessen schlagen wir Combiner vor, eine Methode, die in jeder Aufmerksamkeitskopf-Unit die volle Aufmerksamkeitsfähigkeit bewahrt, gleichzeitig aber niedrige Berechnungs- und Speicherkomplexität beibehält. Der zentrale Ansatz besteht darin, den Selbst-Aufmerksamkeitsmechanismus als bedingte Erwartung der Embeddings an jeder Position zu interpretieren und die bedingte Verteilung mittels einer strukturierten Faktorisierung zu approximieren. Jede Position kann dabei auf alle anderen Positionen direkt oder indirekt über Aufmerksamkeit zu Abstraktionen zugreifen, die wiederum bedingte Erwartungen der Embeddings aus entsprechenden lokalen Regionen darstellen. Wir zeigen, dass die meisten in bestehenden sparsen Transformers verwendeten sparsen Aufmerksamkeitsmuster die Gestaltung einer solchen Faktorisierung für vollständige Aufmerksamkeit inspirieren können, was eine sub-quadratische Kostenordnung (O(Llog(L))\mathcal{O}(L\log(L))O(Llog(L)) oder O(LL)\mathcal{O}(L\sqrt{L})O(LL)) ermöglicht. Combiner ist eine direkte Ersatzkomponente für Aufmerksamkeitslagen in bestehenden Transformers und lässt sich problemlos in gängigen Frameworks implementieren. Eine experimentelle Evaluierung sowohl auf autoregressiven als auch auf bidirektionalen Sequenzaufgaben belegt die Wirksamkeit des Ansatzes und erzielt state-of-the-art Ergebnisse bei mehreren Aufgaben im Bereich Bild- und Textmodellierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Combiner: Vollständiger Aufmerksamkeits-Transformer mit sparsen Berechnungskosten | Paper | HyperAI