HyperAIHyperAI

Command Palette

Search for a command to run...

NASViT: بحث في البنية العصبية لتحويلات الرؤية الفعالة مع تدريب مسبق مُدرك لصراع التدرج

Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong

الملخص

تصميم نماذج ناقلات الرؤية (ViTs) دقيقة وفعالة يُعد مهمة بالغة الأهمية، لكنها تواجه صعوبات كبيرة. تتيح طريقة البحث عن الهيكل العصبي ذات اللحظة الواحدة (NAS) القائمة على النموذج الفائق (Supernet) تحسينًا سريعًا للهيكل، وقد حققت نتائج متفوقة (SOTA) في الشبكات العصبية التلافيفية (CNNs). ومع ذلك، فإن تطبيق هذه الطريقة مباشرة لتحسين نماذج ViTs يؤدي إلى أداء ضعيف، بل وأسوأ من تدريب نموذج ViT فردي واحد. في هذا العمل، نلاحظ أن السبب في الأداء الضعيف يكمن في مشكلة تناقض التدرجات (Gradient Conflict): إذ تتعارض تدرجات الشبكات الفرعية المختلفة مع تدرجات النموذج الفائق بشكل أكثر حدة في نماذج ViTs مقارنةً بـ CNNs، ما يؤدي إلى توقف مبكر في التدريب وتحقيق تقارب أقل كفاءة. ولتخفيف هذه المشكلة، نقترح سلسلة من التقنيات، تشمل خوارزمية تProjection التدرجات، وتصميمًا قابلاً للتبديل لتكبير الطبقات، ووصفة تدريب مبسطة لتوسيع البيانات والتنظيم. تُحسّن هذه التقنيات بشكل كبير من تقارب جميع الشبكات الفرعية وأدائها. وتحقيقًا لنتائج متميزة، تم اكتشاف عائلة نماذج ViT الهجينة، التي أطلقنا عليها اسم NASViT، والتي تحقق دقة أعلى بنسبة 78.2% إلى 81.8% على ImageNet بحدود من 200 مليون إلى 800 مليون عملية حسابية (FLOPs)، وتتفوق على جميع النماذج السابقة من CNNs وViTs، بما في ذلك AlphaNet وLeViT. وعند نقل هذه النماذج إلى مهام التصنيف الدلالي (Semantic Segmentation)، تتفوق نماذج NASViT على النماذج السابقة على كلا مجموعتي بيانات Cityscapes وADE20K، حيث تحقق دقة متوسطة لمؤشر IoU (mIoU) تبلغ 73.2% و37.9% على التوالي، وباستخدام فقط 5G FLOPs.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp