Command Palette
Search for a command to run...
FNet : Mélanges de tokens par transformations de Fourier
FNet : Mélanges de tokens par transformations de Fourier
James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon
Résumé
Nous montrons qu’il est possible d’accélérer les architectures d’encodeurs Transformer, avec une perte d’exactitude limitée, en remplaçant les sous-couches d’attention auto-attention par des transformations linéaires simples qui « mélangent » les tokens d’entrée. Ces mélanges linéaires, combinés aux non-linéarités standard des couches feed-forward, s’avèrent efficaces pour modéliser les relations sémantiques dans plusieurs tâches de classification de texte. Plus surprenant encore, nous constatons qu’en remplaçant la sous-couche d’attention auto-attention dans un encodeur Transformer par une transformation de Fourier standard et non paramétrée, on atteint 92 à 97 % de l’exactitude des modèles BERT sur le benchmark GLUE, tout en étant 80 % plus rapide à entraîner sur GPU et 70 % plus rapide sur TPU pour des longueurs d’entrée standard de 512. À des longueurs d’entrée plus élevées, le modèle FNet est significativement plus rapide : comparé aux Transformers « efficaces » sur le benchmark Long Range Arena, FNet atteint l’exactitude des modèles les plus performants, tout en surpassant les modèles les plus rapides pour toutes les longueurs de séquence sur GPU (et pour les longueurs relativement courtes sur TPU). Enfin, FNet présente une empreinte mémoire réduite et se distingue particulièrement par son efficacité aux tailles de modèle plus petites ; pour un budget fixe de vitesse et d’exactitude, les modèles FNet de petite taille surpassent leurs homologues basés sur les Transformers.