Flowformer: Linearisierung von Transformers mit Erhaltungsflüssen

Transformers, die auf dem Aufmerksamkeitsmechanismus basieren, haben in verschiedenen Bereichen beeindruckende Erfolge erzielt. Der Aufmerksamkeitsmechanismus weist jedoch eine quadratische Komplexität auf, was die Verarbeitung großer Tokenanzahlen und die Skalierung auf größere Modelle erheblich behindert. Bisherige Ansätze nutzen hauptsächlich die Ähnlichkeitszerlegung und die Assoziativität der Matrixmultiplikation, um Aufmerksamkeitsmechanismen mit linearer Zeitkomplexität zu entwerfen. Dabei vermeiden sie die Degeneration der Aufmerksamkeit zu einer triviale Verteilung, indem sie induktive Voreingenommenheiten wie Lokalität wieder einführen – zu Lasten der Modellgenerizität und Ausdruckskraft. In diesem Artikel linearisieren wir Transformers ohne spezifische induktive Voreingenommenheiten auf der Grundlage der Flusstheorie. Wir interpretieren Aufmerksamkeit als Informationsfluss, der aus den Quellen (Werten) zu den Senken (Ergebnissen) über gelernte Flusskapazitäten (Aufmerksamkeiten) aggregiert wird. Innerhalb dieses Rahmens integrieren wir die Eigenschaft der Flusserhaltung in die Aufmerksamkeit und stellen den Flow-Attention-Mechanismus mit linearer Komplexität vor. Durch die jeweilige Erhaltung des ankommenden Flusses an den Senken zur Quellenkonkurrenz und des abgehenden Flusses von den Quellen zur Senkenzuweisung generiert Flow-Attention inhärent informative Aufmerksamkeiten, ohne spezifische induktive Voreingenommenheiten zu verwenden. Mit dem Flow-Attention-Mechanismus erreicht Flowformer eine starke Leistung in linearer Zeit über weite Anwendungsbereiche hinweg, darunter lange Sequenzen, Zeitreihen, Bildverarbeitung, natürliche Sprache und Verstärkendes Lernen. Der Quellcode und die Konfigurationen sind in diesem Repository verfügbar: https://github.com/thuml/Flowformer.