il y a 6 mois

Résumé

Nous montrons qu’il est possible d’accélérer les architectures d’encodeurs Transformer, avec une perte d’exactitude limitée, en remplaçant les sous-couches d’attention auto-attention par des transformations linéaires simples qui « mélangent » les tokens d’entrée. Ces mélanges linéaires, combinés aux non-linéarités standard des couches feed-forward, s’avèrent efficaces pour modéliser les relations sémantiques dans plusieurs tâches de classification de texte. Plus surprenant encore, nous constatons qu’en remplaçant la sous-couche d’attention auto-attention dans un encodeur Transformer par une transformation de Fourier standard et non paramétrée, on atteint 92 à 97 % de l’exactitude des modèles BERT sur le benchmark GLUE, tout en étant 80 % plus rapide à entraîner sur GPU et 70 % plus rapide sur TPU pour des longueurs d’entrée standard de 512. À des longueurs d’entrée plus élevées, le modèle FNet est significativement plus rapide : comparé aux Transformers « efficaces » sur le benchmark Long Range Arena, FNet atteint l’exactitude des modèles les plus performants, tout en surpassant les modèles les plus rapides pour toutes les longueurs de séquence sur GPU (et pour les longueurs relativement courtes sur TPU). Enfin, FNet présente une empreinte mémoire réduite et se distingue particulièrement par son efficacité aux tailles de modèle plus petites ; pour un budget fixe de vitesse et d’exactitude, les modèles FNet de petite taille surpassent leurs homologues basés sur les Transformers.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Traitement Du Langage Naturel

Réseaux De Neurones

Approche/Framework

Traitement Du Langage Naturel

Tâche

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Traitement Du Langage Naturel

Réseaux De Neurones

Approche/Framework

Traitement Du Langage Naturel

Tâche

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

FNet : Mélanges de tokens par transformations de Fourier

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FNet : Mélanges de tokens par transformations de Fourier

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

FNet : Mélanges de tokens par transformations de Fourier

James Lee-Thorp Joshua Ainslie Ilya Eckstein Santiago Ontanon

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters