vor 10 Tagen

Effiziente inhaltsbasierte spärliche Aufmerksamkeit mit Routing-Transformern

Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier

Abstract

Self-Attention wurde kürzlich für eine Vielzahl von Sequenzmodellierungsproblemen übernommen. Trotz seiner Wirksamkeit leidet Self-Attention unter quadratischen Anforderungen an Berechnungsaufwand und Speicherbedarf bezüglich der Sequenzlänge. Erfolgreiche Ansätze zur Reduktion dieser Komplexität konzentrieren sich darauf, nur lokale gleitende Fenster oder eine kleine Menge an Positionen unabhängig vom Inhalt zu berücksichtigen. In unserer Arbeit wird ein Ansatz vorgestellt, dynamisch spärliche Aufmerksamkeitsmuster zu lernen, die verhindern, dass Rechenleistung und Speicher für die Berücksichtigung von Inhalten eingesetzt werden, die für die jeweilige Anfrage nicht relevant sind. Diese Arbeit baut auf zwei Forschungslinien auf: Sie verbindet die Modellierungsflexibilität vorheriger Arbeiten zu inhaltsbasierten spärlichen Aufmerksamkeitsansätzen mit den Effizienzgewinnen von Ansätzen, die auf lokaler, zeitlicher Spärlichkeit basieren. Unser Modell, der Routing Transformer, verleiht Self-Attention einen spärlichen Routing-Modul, der auf Online-k-Means basiert, und reduziert die Gesamtkomplexität der Aufmerksamkeit von $O(n^2d)$ auf $O(n^{1.5}d)$ für eine Sequenzlänge $n$ und eine versteckte Dimension $d$. Wir zeigen, dass unser Modell vergleichbare spärliche Aufmerksamkeitsmodelle bei der Sprachmodellierung auf Wikitext-103 (15,8 vs. 18,3 Perplexität) sowie bei der Bildgenerierung auf ImageNet-64 (3,43 vs. 3,44 Bit/Dim) übertrifft, während es weniger Self-Attention-Layer verwendet. Zudem erreichen wir eine neue State-of-the-Art-Leistung auf dem kürzlich veröffentlichten PG-19-Datensatz, wobei ein 22-Schichten-Routing-Transformer-Modell, das auf Sequenzen der Länge 8192 trainiert wurde, eine Test-Perplexität von 33,2 erzielt.