HyperAIHyperAI

Command Palette

Search for a command to run...

Prêtez attention aux MLPs

Hanxiao Liu Zihang Dai David R. So Quoc V. Le

Résumé

Les Transformers sont devenus l'une des innovations architecturales les plus importantes en apprentissage profond et ont permis de nombreux progrès au cours des dernières années. Dans ce travail, nous proposons une architecture de réseau simple, appelée gMLP, basée sur des MLPs à gating, et démontrons qu’elle peut atteindre des performances comparables aux Transformers sur des applications clés en traitement du langage et en vision par ordinateur. Nos comparaisons montrent que l’attention auto-supervisée n’est pas essentielle pour les Transformers visuels, puisque gMLP parvient à atteindre une précision équivalente. Pour BERT, notre modèle atteint une performance équivalente aux Transformers en termes de perplexité durant l’entraînement préalable, et se distingue sur certaines tâches NLP en aval. Sur les tâches d’ajustement fin, où gMLP se comporte moins bien, augmenter significativement la taille du modèle gMLP permet de réduire l’écart avec les Transformers. En général, nos expériences montrent que gMLP peut s’échelonner aussi efficacement que les Transformers en fonction de l’augmentation des données et des ressources de calcul.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Prêtez attention aux MLPs | Articles | HyperAI