FNet: Token-Mischung mit Fourier-Transformationen

Wir zeigen, dass Transformer-Encoder-Architekturen beschleunigt werden können, ohne signifikante Genauigkeitsverluste, indem die Self-Attention-Subschichten durch einfache lineare Transformationen ersetzt werden, die die Eingabetokens „mischen“. Diese linearen Mixer, kombiniert mit herkömmlichen Nichtlinearitäten in den Feed-Forward-Schichten, erweisen sich als leistungsfähig bei der Modellierung semantischer Beziehungen in mehreren Textklassifizierungsaufgaben. Am überraschendsten ist, dass die Ersetzung der Self-Attention-Subschicht in einem Transformer-Encoder durch eine standardmäßige, parameterfreie Fourier-Transformation auf dem GLUE-Benchmark 92–97 % der Genauigkeit von BERT-Entsprechungen erreicht, jedoch auf GPUs um 80 % und auf TPUs um 70 % schneller trainiert, bei typischen Eingabefolgen der Länge 512. Bei längeren Eingabefolgen ist unser FNet-Modell erheblich schneller: Im Vergleich zu „effizienten“ Transformers im Long Range Arena-Benchmark erreicht FNet die Genauigkeit der präzisesten Modelle, während es auf GPUs bei allen Sequenzlängen die schnellsten Modelle übertrifft (und bei vergleichsweise kürzeren Längen auch auf TPUs). Schließlich weist FNet einen geringen Speicherbedarf auf und ist besonders effizient bei kleineren Modellgrößen; bei festgelegtem Geschwindigkeits- und Genauigkeitsbudget übertrifft das kleine FNet-Modell die entsprechenden Transformer-Modelle.