توسيع نماذج متحولات الرؤية إلى 22 مليار معلمة

لقد أدت زيادة حجم نماذج التحويل (Transformers) إلى تحقيق قدرات مبتكرة في مجال النماذج اللغوية. وفي الوقت الحاضر، تحتوي أكبر النماذج اللغوية الكبيرة (LLMs) على أكثر من 100 مليار معلمة. وقد أدخلت نماذج التحويل البصرية (Vision Transformers أو ViT) نفس الهندسة إلى نمذجة الصور والفيديوهات، لكن لم يتم توسيعها بنجاح إلى الدرجة نفسها بعد؛ حيث يحتوي أكبر ViT كثيف على 4 مليارات معلمة (تشن وآخرون، 2022). نقدم في هذا البحث وصفة لتدريب نموذج ViT بحجم 22 مليار معلمة (ViT-22B) بكفاءة عالية واستقرار، ونقوم بإجراء مجموعة متنوعة من التجارب على النموذج الناتج. عند تقييمه في المهام الثانوية (غالبًا باستخدام نموذج خطي خفيف على الخصائص المتجمدة)، يظهر ViT-22B تحسينًا في الأداء مع زيادة الحجم. كما لاحظنا فوائد أخرى مثيرة للاهتمام للتوسع، بما في ذلك توازن أفضل بين العدالة والأداء، ومطابقة رائدة للإدراك البصري البشري فيما يتعلق بالتحيز الشكلي/النسيجي، وزيادة متانة الأداء. يُظهر ViT-22B الإمكانات لتحقيق توسع مشابه لتلك الموجودة في النماذج اللغوية الكبيرة (LLM-like) في مجال الرؤية البصرية، ويوفر خطوات أساسية نحو تحقيق هذا الهدف.