Échelle des Transformers de Vision à 22 Milliards de Paramètres

L'augmentation de la taille des Transformers a permis des avancées majeures dans les capacités des modèles de langage. Actuellement, les plus grands modèles de langage (LLMs) contiennent plus de 100 milliards de paramètres. Les Transformers pour la vision (ViT) ont introduit la même architecture à la modélisation d'images et de vidéos, mais ces derniers n'ont pas encore été mis à l'échelle avec autant de succès ; le plus grand ViT dense contient 4 milliards de paramètres (Chen et al., 2022). Nous présentons une méthode permettant un entraînement très efficace et stable d'un ViT à 22 milliards de paramètres (ViT-22B) et nous menons une grande variété d'expériences sur le modèle résultant. Lorsqu'il est évalué sur des tâches en aval (souvent avec un modèle linéaire léger sur des caractéristiques figées), le ViT-22B montre une amélioration des performances avec l'augmentation de sa taille. Nous observons également d'autres avantages intéressants liés à l'échelle, notamment un meilleur compromis entre équité et performance, une alignement d'avant-garde à la perception visuelle humaine en termes de biais forme/tissu, et une meilleure robustesse. Le ViT-22B démontre le potentiel d'une mise à l'échelle « similaire aux LLM » dans le domaine de la vision, et fournit des étapes clés pour y parvenir.