2달 전

비전 트랜스포머를 220억 개 매개변수로 확장

Mostafa Dehghani; Josip Djolonga; Basil Mustafa; Piotr Padlewski; Jonathan Heek; Justin Gilmer; Andreas Steiner; Mathilde Caron; Robert Geirhos; Ibrahim Alabdulmohsin; Rodolphe Jenatton; Lucas Beyer; Michael Tschannen; Anurag Arnab; Xiao Wang; Carlos Riquelme; Matthias Minderer; Joan Puigcerver; Utku Evci; Manoj Kumar; Sjoerd van Steenkiste; Gamaleldin F. Elsayed; Aravindh Mahendran; Fisher Yu; Avital Oliver; Fantine Huot; Jasmijn Bastings; Mark Patrick Collier; Alexey Gritsenko; Vighnesh Birodkar; Cristina Vasconcelos; Yi Tay; Thomas Mensink; Alexander Kolesnikov; Filip Pavetić; Dustin Tran; Thomas Kipf; Mario Lučić; Xiaohua Zhai; Daniel Keysers; Jeremiah Harmsen; Neil Houlsby
비전 트랜스포머를 220억 개 매개변수로 확장
초록

트랜스포머의 확장은 언어 모델의 혁신적인 기능을 이끌었습니다. 현재 가장 큰 대형 언어 모델(Large Language Models, LLMs)은 100억 개 이상의 매개변수를 포함하고 있습니다. 비전 트랜스포머(Vision Transformers, ViT)는 같은 아키텍처를 이미지 및 동영상 모델링에 도입했지만, 아직 이러한 모델들은 LLM과 유사한 수준으로 성공적으로 확장되지 않았습니다. 가장 큰 밀집형 ViT는 4억 개의 매개변수를 포함하고 있습니다(Chen et al., 2022). 본 연구에서는 22억 개 매개변수를 가진 ViT(ViT-22B)의 매우 효율적이고 안정적인 훈련 방법을 제시하며, 이로 인해 생성된 모델에 대해 다양한 실험을 수행합니다. 다운스트림 작업에서 평가할 때(주로 동결된 특성 위에서 경량화된 선형 모델을 사용하여), ViT-22B는 규모가 커짐에 따라 성능이 향상되는 것을 보여줍니다. 또한 우리는 규모 증대가 공정성과 성능 간의 균형 개선, 인간 시각 인식과의 최신 정렬(특히 형태/텍스처 편향 측면에서), 그리고 강건성 향상 등 다른 흥미로운 이점을 제공함을 관찰하였습니다. ViT-22B는 비전 분야에서도 "LLM처럼" 확장될 가능성을 보여주며, 이를 실현하기 위한 핵심 단계들을 제공합니다.

비전 트랜스포머를 220억 개 매개변수로 확장 | 최신 연구 논문 | HyperAI초신경