HyperAIHyperAI

Command Palette

Search for a command to run...

عندما تتفوق نماذج التحويل البصري على نماذج ResNet دون تدريب مسبق أو تعزيز قوي للبيانات

Xiangning Chen Cho-Jui Hsieh Boqing Gong

الملخص

تحدد نماذج التحويلات البصرية (ViTs) وشبكات التحويلات العصبية متعددة الطبقات (MLPs) جهودًا إضافية لاستبدال السمات المُعدّة يدويًا أو الانحيازات الاستنتاجية ببنية عصبية عامة الغرض. تعتمد الدراسات الحالية على كميات هائلة من البيانات، مثل التدريب المسبق على نطاق واسع و/أو التوسيع القوي المتكرر للبيانات، ورغم ذلك تُبلغ عن مشكلات مرتبطة بالتحسين (مثل الحساسية تجاه التهيئة الأولية ومعدلات التعلم). لذلك، تبحث هذه الورقة في نماذج ViTs وMLP-Mixers من منظور هندسة دالة الخطأ، بهدف تحسين كفاءة البيانات أثناء التدريب وتحسين القدرة على التعميم أثناء الاستدلال. تُظهر الرسوم البيانية والهيسين (Hessian) وجود نقاط صغرى محلية حادة للغاية في النماذج المستقرة. وباستخدام مُحسّن حديث يراعي الحدة (sharpness-aware optimizer)، نُحسّن بشكل كبير من الدقة والمتانة لنموذج ViTs وMLP-Mixers في مهام متعددة تتراوح بين التعلم الخاضع للإشراف، والتعلم المضاد، والتعلم التبايني، والتعلم الناقل (مثلاً، زيادة بنسبة +5.3% و+11.0% في دقة الصنف الأول على ImageNet لنموذج ViT-B/16 وMixer-B/16 على التوالي، باستخدام معالجة بسيطة بنمط Inception). نُظهر أن هذه التحسينات في السلسية تعود إلى تقليل عدد الخلايا العصبية النشطة في الطبقات الأولى. ونتيجة لذلك، تتفوّق النماذج المُحسَّنة من ViTs على نماذج ResNets ذات الحجم والسرعة المماثلة عند تدريبها من الصفر على ImageNet دون الحاجة إلى التدريب المسبق على نطاق واسع أو التوسيع القوي للبيانات. يمكن الوصول إلى نقاط الحفظ (model checkpoints) عبر الرابط: \url{https://github.com/google-research/vision_transformer}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عندما تتفوق نماذج التحويل البصري على نماذج ResNet دون تدريب مسبق أو تعزيز قوي للبيانات | مستندات | HyperAI