منذ 6 أشهر

الملخص

لقد حققت الشبكات العصبية القائمة على الانتباه مثل نموذج التحويل البصري (ViT) نتائج متميزة في العديد من معايير الرؤية الحاسوبية الحديثة. إن الحجم يُعد عنصراً أساسياً لتحقيق نتائج ممتازة، وبالتالي فإن فهم خصائص التوسع الخاصة بالنماذج يُعد عاملاً محورياً في تصميم الأجيال المستقبلية بشكل فعّال. وعلى الرغم من أن قوانين توسع نماذج التحويل للغة قد تم دراستها، إلا أن فهم كيفية توسع نماذج التحويل البصري ما زال غير معروف. ولحل هذه المسألة، قمنا بتوسيع نماذج ViT والبيانات المستخدمة فيها، سواءً باتجاه التوسع أو التقلص، وشخصنا العلاقات بين معدل الخطأ، والبيانات، والحساب. وفي أثناء هذه العملية، قمنا بتحسين معمارية ViT وطريقة تدريبه، مما أدى إلى تقليل استهلاك الذاكرة وزيادة دقة النماذج الناتجة. وبفضل ذلك، نجحنا في تدريب نموذج ViT يحتوي على بيليوني معامل، والذي حقق أداءً متميزاً جديداً على مجموعة بيانات ImageNet بتحقيق دقة 90.45% في التصنيف الأولي (top-1). كما أظهر النموذج أداءً جيداً في التحويل بكمية قليلة من الأمثلة (few-shot transfer)، حيث بلغت دقة التصنيف الأولي 84.86% على ImageNet باستخدام فقط 10 أمثلة لكل فئة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار