HyperAIHyperAI
il y a 18 jours

Prêtez attention aux MLPs

Hanxiao Liu, Zihang Dai, David R. So, Quoc V. Le
Prêtez attention aux MLPs
Résumé

Les Transformers sont devenus l'une des innovations architecturales les plus importantes en apprentissage profond et ont permis de nombreux progrès au cours des dernières années. Dans ce travail, nous proposons une architecture de réseau simple, appelée gMLP, basée sur des MLPs à gating, et démontrons qu’elle peut atteindre des performances comparables aux Transformers sur des applications clés en traitement du langage et en vision par ordinateur. Nos comparaisons montrent que l’attention auto-supervisée n’est pas essentielle pour les Transformers visuels, puisque gMLP parvient à atteindre une précision équivalente. Pour BERT, notre modèle atteint une performance équivalente aux Transformers en termes de perplexité durant l’entraînement préalable, et se distingue sur certaines tâches NLP en aval. Sur les tâches d’ajustement fin, où gMLP se comporte moins bien, augmenter significativement la taille du modèle gMLP permet de réduire l’écart avec les Transformers. En général, nos expériences montrent que gMLP peut s’échelonner aussi efficacement que les Transformers en fonction de l’augmentation des données et des ressources de calcul.