HyperAIHyperAI
il y a 2 mois

Échelle des Transformers de Vision à 22 Milliards de Paramètres

Mostafa Dehghani; Josip Djolonga; Basil Mustafa; Piotr Padlewski; Jonathan Heek; Justin Gilmer; Andreas Steiner; Mathilde Caron; Robert Geirhos; Ibrahim Alabdulmohsin; Rodolphe Jenatton; Lucas Beyer; Michael Tschannen; Anurag Arnab; Xiao Wang; Carlos Riquelme; Matthias Minderer; Joan Puigcerver; Utku Evci; Manoj Kumar; Sjoerd van Steenkiste; Gamaleldin F. Elsayed; Aravindh Mahendran; Fisher Yu; Avital Oliver; Fantine Huot; Jasmijn Bastings; Mark Patrick Collier; Alexey Gritsenko; Vighnesh Birodkar; Cristina Vasconcelos; Yi Tay; Thomas Mensink; Alexander Kolesnikov; Filip Pavetić; Dustin Tran; Thomas Kipf; Mario Lučić; Xiaohua Zhai; Daniel Keysers; Jeremiah Harmsen; Neil Houlsby
Échelle des Transformers de Vision à 22 Milliards de Paramètres
Résumé

L'augmentation de la taille des Transformers a permis des avancées majeures dans les capacités des modèles de langage. Actuellement, les plus grands modèles de langage (LLMs) contiennent plus de 100 milliards de paramètres. Les Transformers pour la vision (ViT) ont introduit la même architecture à la modélisation d'images et de vidéos, mais ces derniers n'ont pas encore été mis à l'échelle avec autant de succès ; le plus grand ViT dense contient 4 milliards de paramètres (Chen et al., 2022). Nous présentons une méthode permettant un entraînement très efficace et stable d'un ViT à 22 milliards de paramètres (ViT-22B) et nous menons une grande variété d'expériences sur le modèle résultant. Lorsqu'il est évalué sur des tâches en aval (souvent avec un modèle linéaire léger sur des caractéristiques figées), le ViT-22B montre une amélioration des performances avec l'augmentation de sa taille. Nous observons également d'autres avantages intéressants liés à l'échelle, notamment un meilleur compromis entre équité et performance, une alignement d'avant-garde à la perception visuelle humaine en termes de biais forme/tissu, et une meilleure robustesse. Le ViT-22B démontre le potentiel d'une mise à l'échelle « similaire aux LLM » dans le domaine de la vision, et fournit des étapes clés pour y parvenir.

Échelle des Transformers de Vision à 22 Milliards de Paramètres | Articles de recherche récents | HyperAI