HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع نماذج التحويل البصري

Xiaohua Zhai Alexander Kolesnikov Neil Houlsby Lucas Beyer

الملخص

لقد حققت الشبكات العصبية القائمة على الانتباه مثل نموذج التحويل البصري (ViT) نتائج متميزة في العديد من معايير الرؤية الحاسوبية الحديثة. إن الحجم يُعد عنصراً أساسياً لتحقيق نتائج ممتازة، وبالتالي فإن فهم خصائص التوسع الخاصة بالنماذج يُعد عاملاً محورياً في تصميم الأجيال المستقبلية بشكل فعّال. وعلى الرغم من أن قوانين توسع نماذج التحويل للغة قد تم دراستها، إلا أن فهم كيفية توسع نماذج التحويل البصري ما زال غير معروف. ولحل هذه المسألة، قمنا بتوسيع نماذج ViT والبيانات المستخدمة فيها، سواءً باتجاه التوسع أو التقلص، وشخصنا العلاقات بين معدل الخطأ، والبيانات، والحساب. وفي أثناء هذه العملية، قمنا بتحسين معمارية ViT وطريقة تدريبه، مما أدى إلى تقليل استهلاك الذاكرة وزيادة دقة النماذج الناتجة. وبفضل ذلك، نجحنا في تدريب نموذج ViT يحتوي على بيليوني معامل، والذي حقق أداءً متميزاً جديداً على مجموعة بيانات ImageNet بتحقيق دقة 90.45% في التصنيف الأولي (top-1). كما أظهر النموذج أداءً جيداً في التحويل بكمية قليلة من الأمثلة (few-shot transfer)، حيث بلغت دقة التصنيف الأولي 84.86% على ImageNet باستخدام فقط 10 أمثلة لكل فئة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp