HyperAIHyperAI
vor 15 Tagen

Fourier Transformer: Schnelle Modellierung langreichweiten Sequenzen durch Eliminierung von Sequenzredundanz mittels FFT-Operator

He, Ziwei, Yang, Meng, Feng, Minwei, Yin, Jingcheng, Wang, Xinbing, Leng, Jingwen, Lin, Zhouhan
Fourier Transformer: Schnelle Modellierung langreichweiten Sequenzen durch Eliminierung von Sequenzredundanz mittels FFT-Operator
Abstract

Das Transformer-Modell ist bekannt dafür, rechenintensiv zu sein und für lange Sequenzen prohibitiv kostspielig, da das Self-Attention-Modul eine quadratische Zeit- und Speicherkomplexität bezüglich der Sequenzlänge aufweist. Viele Forscher haben sich darauf konzentriert, neue Formen des Self-Attention zu entwerfen oder zusätzliche Parameter einzuführen, um diese Einschränkung zu überwinden. Allerdings verbieten viele dieser Ansätze, dass das Modell Gewichte aus großen vortrainierten Modellen übernehmen kann. In dieser Arbeit wird die Ineffizienz des Transformers aus einer anderen Perspektive angegangen. Wir stellen den Fourier Transformer vor, einen einfachen, aber wirksamen Ansatz, der durch schrittweise Eliminierung von Redundanzen in der versteckten Sequenz mithilfe des bereits vorhandenen schnellen Fourier-Transformations-(FFT)-Operators eine diskrete Kosinustransformation (DCT) durchführt. Der Fourier Transformer kann die Rechenkosten erheblich reduzieren, während er gleichzeitig die Fähigkeit bewahrt, aus verschiedenen großen vortrainierten Modellen zu übernehmen. Experimente zeigen, dass unser Modell im Benchmark für Langstreckenmodellierung (LRA) unter allen Transformer-basierten Modellen die derzeit beste Leistung erzielt, wobei sowohl Geschwindigkeit als auch Speicherbedarf signifikant verbessert werden. Bei generativen seq2seq-Aufgaben wie CNN/DailyMail und ELI5 übertrifft unser Modell durch Übernahme der BART-Gewichte sowohl das Standard-BART-Modell als auch andere effiziente Ansätze. Unser Quellcode ist öffentlich verfügbar unter https://github.com/LUMIA-Group/FourierTransformer

Fourier Transformer: Schnelle Modellierung langreichweiten Sequenzen durch Eliminierung von Sequenzredundanz mittels FFT-Operator | Neueste Forschungsarbeiten | HyperAI