Command Palette
Search for a command to run...
Allez plus loin plutôt que plus profondément
Allez plus loin plutôt que plus profondément
Fuzhao Xue Ziji Shi Futao Wei Yuxuan Lou Yong Liu Yang You
Résumé
Des blocs de transformateur augmentés avec des connexions résiduelles ont récemment obtenu des résultats remarquables sur diverses tâches. Afin d’améliorer les performances tout en réduisant le nombre de paramètres entraînables, certaines méthodes récentes proposent de réduire la profondeur du modèle grâce au partage de paramètres ou à une compression du modèle le long de la profondeur. Toutefois, cette approche est limitée par une capacité de modélisation faible. À l’inverse, élargir le modèle en introduisant davantage de matrices entraînables et de paramètres entraîne un modèle massif, nécessitant une parallélisation avancée pour l’entraînement et l’inférence.Dans ce travail, nous proposons un cadre efficace en termes de paramètres, en privilégiant l’élargissement plutôt que l’approfondissement du modèle. Plus précisément, comme dans les travaux antérieurs, nous appliquons le partage de paramètres pour comprimer le modèle le long de la profondeur. Toutefois, une telle stratégie limite les performances. Pour maximiser la capacité de modélisation, nous étendons le modèle le long de sa largeur en remplaçant le réseau feed-forward (FFN) par un mélange d’experts (MoE). Par ailleurs, au lieu de partager les couches de normalisation entre les blocs de transformateur, nous proposons d’utiliser des normalisations par couche individuelles, permettant une transformation plus efficace des différentes représentations sémantiques tout en préservant une faible consommation de paramètres.Pour évaluer notre cadre plug-and-play, nous avons conçu WideNet et mené des expériences approfondies sur des benchmarks populaires en vision par ordinateur et en traitement du langage naturel. Sur ImageNet-1K, notre meilleur modèle dépasse le Vision Transformer (ViT) de 1,5 % tout en utilisant seulement 0,72 fois le nombre de paramètres entraînables. En utilisant respectivement 0,46 et 0,13 fois moins de paramètres, WideNet surpasse encore ViT et ViT-MoE de 0,8 % et 2,1 % respectivement. Sur quatre jeux de données de traitement du langage naturel, WideNet dépasse ALBERT en moyenne de 1,8 % et BERT utilisant une paramétrisation factorisée des embeddings de 0,8 %, tout en nécessitant moins de paramètres.