HyperAIHyperAI
منذ 2 أشهر

توسيع نماذج متحولات الرؤية إلى 22 مليار معلمة

Mostafa Dehghani; Josip Djolonga; Basil Mustafa; Piotr Padlewski; Jonathan Heek; Justin Gilmer; Andreas Steiner; Mathilde Caron; Robert Geirhos; Ibrahim Alabdulmohsin; Rodolphe Jenatton; Lucas Beyer; Michael Tschannen; Anurag Arnab; Xiao Wang; Carlos Riquelme; Matthias Minderer; Joan Puigcerver; Utku Evci; Manoj Kumar; Sjoerd van Steenkiste; Gamaleldin F. Elsayed; Aravindh Mahendran; Fisher Yu; Avital Oliver; Fantine Huot; Jasmijn Bastings; Mark Patrick Collier; Alexey Gritsenko; Vighnesh Birodkar; Cristina Vasconcelos; Yi Tay; Thomas Mensink; Alexander Kolesnikov; Filip Pavetić; Dustin Tran; Thomas Kipf; Mario Lučić; Xiaohua Zhai; Daniel Keysers; Jeremiah Harmsen; Neil Houlsby
توسيع نماذج متحولات الرؤية إلى 22 مليار معلمة
الملخص

لقد أدت زيادة حجم نماذج التحويل (Transformers) إلى تحقيق قدرات مبتكرة في مجال النماذج اللغوية. وفي الوقت الحاضر، تحتوي أكبر النماذج اللغوية الكبيرة (LLMs) على أكثر من 100 مليار معلمة. وقد أدخلت نماذج التحويل البصرية (Vision Transformers أو ViT) نفس الهندسة إلى نمذجة الصور والفيديوهات، لكن لم يتم توسيعها بنجاح إلى الدرجة نفسها بعد؛ حيث يحتوي أكبر ViT كثيف على 4 مليارات معلمة (تشن وآخرون، 2022). نقدم في هذا البحث وصفة لتدريب نموذج ViT بحجم 22 مليار معلمة (ViT-22B) بكفاءة عالية واستقرار، ونقوم بإجراء مجموعة متنوعة من التجارب على النموذج الناتج. عند تقييمه في المهام الثانوية (غالبًا باستخدام نموذج خطي خفيف على الخصائص المتجمدة)، يظهر ViT-22B تحسينًا في الأداء مع زيادة الحجم. كما لاحظنا فوائد أخرى مثيرة للاهتمام للتوسع، بما في ذلك توازن أفضل بين العدالة والأداء، ومطابقة رائدة للإدراك البصري البشري فيما يتعلق بالتحيز الشكلي/النسيجي، وزيادة متانة الأداء. يُظهر ViT-22B الإمكانات لتحقيق توسع مشابه لتلك الموجودة في النماذج اللغوية الكبيرة (LLM-like) في مجال الرؤية البصرية، ويوفر خطوات أساسية نحو تحقيق هذا الهدف.

توسيع نماذج متحولات الرؤية إلى 22 مليار معلمة | أحدث الأوراق البحثية | HyperAI