HyperAIHyperAI

Command Palette

Search for a command to run...

Flowformer: Linearisierung von Transformers mit Erhaltungsflüssen

Haixu Wu Jialong Wu Jiehui Xu Jianmin Wang Mingsheng Long

Zusammenfassung

Transformers, die auf dem Aufmerksamkeitsmechanismus basieren, haben in verschiedenen Bereichen beeindruckende Erfolge erzielt. Der Aufmerksamkeitsmechanismus weist jedoch eine quadratische Komplexität auf, was die Verarbeitung großer Tokenanzahlen und die Skalierung auf größere Modelle erheblich behindert. Bisherige Ansätze nutzen hauptsächlich die Ähnlichkeitszerlegung und die Assoziativität der Matrixmultiplikation, um Aufmerksamkeitsmechanismen mit linearer Zeitkomplexität zu entwerfen. Dabei vermeiden sie die Degeneration der Aufmerksamkeit zu einer triviale Verteilung, indem sie induktive Voreingenommenheiten wie Lokalität wieder einführen – zu Lasten der Modellgenerizität und Ausdruckskraft. In diesem Artikel linearisieren wir Transformers ohne spezifische induktive Voreingenommenheiten auf der Grundlage der Flusstheorie. Wir interpretieren Aufmerksamkeit als Informationsfluss, der aus den Quellen (Werten) zu den Senken (Ergebnissen) über gelernte Flusskapazitäten (Aufmerksamkeiten) aggregiert wird. Innerhalb dieses Rahmens integrieren wir die Eigenschaft der Flusserhaltung in die Aufmerksamkeit und stellen den Flow-Attention-Mechanismus mit linearer Komplexität vor. Durch die jeweilige Erhaltung des ankommenden Flusses an den Senken zur Quellenkonkurrenz und des abgehenden Flusses von den Quellen zur Senkenzuweisung generiert Flow-Attention inhärent informative Aufmerksamkeiten, ohne spezifische induktive Voreingenommenheiten zu verwenden. Mit dem Flow-Attention-Mechanismus erreicht Flowformer eine starke Leistung in linearer Zeit über weite Anwendungsbereiche hinweg, darunter lange Sequenzen, Zeitreihen, Bildverarbeitung, natürliche Sprache und Verstärkendes Lernen. Der Quellcode und die Konfigurationen sind in diesem Repository verfügbar: https://github.com/thuml/Flowformer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp