2 个月前

将视觉变压器扩展到220亿参数

Mostafa Dehghani; Josip Djolonga; Basil Mustafa; Piotr Padlewski; Jonathan Heek; Justin Gilmer; Andreas Steiner; Mathilde Caron; Robert Geirhos; Ibrahim Alabdulmohsin; Rodolphe Jenatton; Lucas Beyer; Michael Tschannen; Anurag Arnab; Xiao Wang; Carlos Riquelme; Matthias Minderer; Joan Puigcerver; Utku Evci; Manoj Kumar; Sjoerd van Steenkiste; Gamaleldin F. Elsayed; Aravindh Mahendran; Fisher Yu; Avital Oliver; Fantine Huot; Jasmijn Bastings; Mark Patrick Collier; Alexey Gritsenko; Vighnesh Birodkar; Cristina Vasconcelos; Yi Tay; Thomas Mensink; Alexander Kolesnikov; Filip Pavetić; Dustin Tran; Thomas Kipf; Mario Lučić; Xiaohua Zhai; Daniel Keysers; Jeremiah Harmsen; Neil Houlsby
将视觉变压器扩展到220亿参数
摘要

Transformer 的扩展推动了语言模型能力的突破。目前,最大的大规模语言模型(LLMs)包含超过 1000 亿个参数。视觉 Transformer(ViT)将相同的架构引入图像和视频建模,但这些模型尚未成功扩展到类似的程度;最大的密集型 ViT 包含 40 亿个参数(Chen 等,2022)。我们提出了一种高效且稳定的 220 亿参数 ViT(ViT-22B)训练方法,并对生成的模型进行了多种实验。在下游任务中评估时(通常是在冻结特征上使用轻量级线性模型),ViT-22B 随着规模的增加表现出性能提升。我们还观察到了其他有趣的规模化优势,包括公平性和性能之间的改进权衡、在形状/纹理偏差方面达到人类视觉感知的最先进水平以及增强的鲁棒性。ViT-22B 展现了视觉领域实现“类似 LLM”的扩展潜力,并为实现这一目标提供了关键步骤。

将视觉变压器扩展到220亿参数 | 最新论文 | HyperAI超神经