HyperAIHyperAI

Command Palette

Search for a command to run...

Allez plus loin plutôt que plus profondément

Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You

Résumé

Des blocs de transformateur augmentés avec des connexions résiduelles ont récemment obtenu des résultats remarquables sur diverses tâches. Afin d’améliorer les performances tout en réduisant le nombre de paramètres entraînables, certaines méthodes récentes proposent de réduire la profondeur du modèle grâce au partage de paramètres ou à une compression du modèle le long de la profondeur. Toutefois, cette approche est limitée par une capacité de modélisation faible. À l’inverse, élargir le modèle en introduisant davantage de matrices entraînables et de paramètres entraîne un modèle massif, nécessitant une parallélisation avancée pour l’entraînement et l’inférence.Dans ce travail, nous proposons un cadre efficace en termes de paramètres, en privilégiant l’élargissement plutôt que l’approfondissement du modèle. Plus précisément, comme dans les travaux antérieurs, nous appliquons le partage de paramètres pour comprimer le modèle le long de la profondeur. Toutefois, une telle stratégie limite les performances. Pour maximiser la capacité de modélisation, nous étendons le modèle le long de sa largeur en remplaçant le réseau feed-forward (FFN) par un mélange d’experts (MoE). Par ailleurs, au lieu de partager les couches de normalisation entre les blocs de transformateur, nous proposons d’utiliser des normalisations par couche individuelles, permettant une transformation plus efficace des différentes représentations sémantiques tout en préservant une faible consommation de paramètres.Pour évaluer notre cadre plug-and-play, nous avons conçu WideNet et mené des expériences approfondies sur des benchmarks populaires en vision par ordinateur et en traitement du langage naturel. Sur ImageNet-1K, notre meilleur modèle dépasse le Vision Transformer (ViT) de 1,5 % tout en utilisant seulement 0,72 fois le nombre de paramètres entraînables. En utilisant respectivement 0,46 et 0,13 fois moins de paramètres, WideNet surpasse encore ViT et ViT-MoE de 0,8 % et 2,1 % respectivement. Sur quatre jeux de données de traitement du langage naturel, WideNet dépasse ALBERT en moyenne de 1,8 % et BERT utilisant une paramétrisation factorisée des embeddings de 0,8 %, tout en nécessitant moins de paramètres.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Allez plus loin plutôt que plus profondément | Articles | HyperAI