توسيع نماذج التحويل البصري

لقد حققت الشبكات العصبية القائمة على الانتباه مثل نموذج التحويل البصري (ViT) نتائج متميزة في العديد من معايير الرؤية الحاسوبية الحديثة. إن الحجم يُعد عنصراً أساسياً لتحقيق نتائج ممتازة، وبالتالي فإن فهم خصائص التوسع الخاصة بالنماذج يُعد عاملاً محورياً في تصميم الأجيال المستقبلية بشكل فعّال. وعلى الرغم من أن قوانين توسع نماذج التحويل للغة قد تم دراستها، إلا أن فهم كيفية توسع نماذج التحويل البصري ما زال غير معروف. ولحل هذه المسألة، قمنا بتوسيع نماذج ViT والبيانات المستخدمة فيها، سواءً باتجاه التوسع أو التقلص، وشخصنا العلاقات بين معدل الخطأ، والبيانات، والحساب. وفي أثناء هذه العملية، قمنا بتحسين معمارية ViT وطريقة تدريبه، مما أدى إلى تقليل استهلاك الذاكرة وزيادة دقة النماذج الناتجة. وبفضل ذلك، نجحنا في تدريب نموذج ViT يحتوي على بيليوني معامل، والذي حقق أداءً متميزاً جديداً على مجموعة بيانات ImageNet بتحقيق دقة 90.45% في التصنيف الأولي (top-1). كما أظهر النموذج أداءً جيداً في التحويل بكمية قليلة من الأمثلة (few-shot transfer)، حيث بلغت دقة التصنيف الأولي 84.86% على ImageNet باستخدام فقط 10 أمثلة لكل فئة.