HyperAIHyperAI

Command Palette

Search for a command to run...

FNet : Mélanges de tokens par transformations de Fourier

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

Nous montrons qu’il est possible d’accélérer les architectures d’encodeurs Transformer, avec une perte d’exactitude limitée, en remplaçant les sous-couches d’attention auto-attention par des transformations linéaires simples qui « mélangent » les tokens d’entrée. Ces mélanges linéaires, combinés aux non-linéarités standard des couches feed-forward, s’avèrent efficaces pour modéliser les relations sémantiques dans plusieurs tâches de classification de texte. Plus surprenant encore, nous constatons qu’en remplaçant la sous-couche d’attention auto-attention dans un encodeur Transformer par une transformation de Fourier standard et non paramétrée, on atteint 92 à 97 % de l’exactitude des modèles BERT sur le benchmark GLUE, tout en étant 80 % plus rapide à entraîner sur GPU et 70 % plus rapide sur TPU pour des longueurs d’entrée standard de 512. À des longueurs d’entrée plus élevées, le modèle FNet est significativement plus rapide : comparé aux Transformers « efficaces » sur le benchmark Long Range Arena, FNet atteint l’exactitude des modèles les plus performants, tout en surpassant les modèles les plus rapides pour toutes les longueurs de séquence sur GPU (et pour les longueurs relativement courtes sur TPU). Enfin, FNet présente une empreinte mémoire réduite et se distingue particulièrement par son efficacité aux tailles de modèle plus petites ; pour un budget fixe de vitesse et d’exactitude, les modèles FNet de petite taille surpassent leurs homologues basés sur les Transformers.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FNet : Mélanges de tokens par transformations de Fourier | Articles | HyperAI