HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente inhaltsbasierte spärliche Aufmerksamkeit mit Routing-Transformern

Aurko Roy Mohammad Saffar Ashish Vaswani David Grangier

Zusammenfassung

Self-Attention wurde kürzlich für eine Vielzahl von Sequenzmodellierungsproblemen übernommen. Trotz seiner Wirksamkeit leidet Self-Attention unter quadratischen Anforderungen an Berechnungsaufwand und Speicherbedarf bezüglich der Sequenzlänge. Erfolgreiche Ansätze zur Reduktion dieser Komplexität konzentrieren sich darauf, nur lokale gleitende Fenster oder eine kleine Menge an Positionen unabhängig vom Inhalt zu berücksichtigen. In unserer Arbeit wird ein Ansatz vorgestellt, dynamisch spärliche Aufmerksamkeitsmuster zu lernen, die verhindern, dass Rechenleistung und Speicher für die Berücksichtigung von Inhalten eingesetzt werden, die für die jeweilige Anfrage nicht relevant sind. Diese Arbeit baut auf zwei Forschungslinien auf: Sie verbindet die Modellierungsflexibilität vorheriger Arbeiten zu inhaltsbasierten spärlichen Aufmerksamkeitsansätzen mit den Effizienzgewinnen von Ansätzen, die auf lokaler, zeitlicher Spärlichkeit basieren. Unser Modell, der Routing Transformer, verleiht Self-Attention einen spärlichen Routing-Modul, der auf Online-k-Means basiert, und reduziert die Gesamtkomplexität der Aufmerksamkeit von O(n2d)O(n^2d)O(n2d) auf O(n1.5d)O(n^{1.5}d)O(n1.5d) für eine Sequenzlänge nnn und eine versteckte Dimension ddd. Wir zeigen, dass unser Modell vergleichbare spärliche Aufmerksamkeitsmodelle bei der Sprachmodellierung auf Wikitext-103 (15,8 vs. 18,3 Perplexität) sowie bei der Bildgenerierung auf ImageNet-64 (3,43 vs. 3,44 Bit/Dim) übertrifft, während es weniger Self-Attention-Layer verwendet. Zudem erreichen wir eine neue State-of-the-Art-Leistung auf dem kürzlich veröffentlichten PG-19-Datensatz, wobei ein 22-Schichten-Routing-Transformer-Modell, das auf Sequenzen der Länge 8192 trainiert wurde, eine Test-Perplexität von 33,2 erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp