عندما تتفوق نماذج التحويل البصري على نماذج ResNet دون تدريب مسبق أو تعزيز قوي للبيانات

تحدد نماذج التحويلات البصرية (ViTs) وشبكات التحويلات العصبية متعددة الطبقات (MLPs) جهودًا إضافية لاستبدال السمات المُعدّة يدويًا أو الانحيازات الاستنتاجية ببنية عصبية عامة الغرض. تعتمد الدراسات الحالية على كميات هائلة من البيانات، مثل التدريب المسبق على نطاق واسع و/أو التوسيع القوي المتكرر للبيانات، ورغم ذلك تُبلغ عن مشكلات مرتبطة بالتحسين (مثل الحساسية تجاه التهيئة الأولية ومعدلات التعلم). لذلك، تبحث هذه الورقة في نماذج ViTs وMLP-Mixers من منظور هندسة دالة الخطأ، بهدف تحسين كفاءة البيانات أثناء التدريب وتحسين القدرة على التعميم أثناء الاستدلال. تُظهر الرسوم البيانية والهيسين (Hessian) وجود نقاط صغرى محلية حادة للغاية في النماذج المستقرة. وباستخدام مُحسّن حديث يراعي الحدة (sharpness-aware optimizer)، نُحسّن بشكل كبير من الدقة والمتانة لنموذج ViTs وMLP-Mixers في مهام متعددة تتراوح بين التعلم الخاضع للإشراف، والتعلم المضاد، والتعلم التبايني، والتعلم الناقل (مثلاً، زيادة بنسبة +5.3% و+11.0% في دقة الصنف الأول على ImageNet لنموذج ViT-B/16 وMixer-B/16 على التوالي، باستخدام معالجة بسيطة بنمط Inception). نُظهر أن هذه التحسينات في السلسية تعود إلى تقليل عدد الخلايا العصبية النشطة في الطبقات الأولى. ونتيجة لذلك، تتفوّق النماذج المُحسَّنة من ViTs على نماذج ResNets ذات الحجم والسرعة المماثلة عند تدريبها من الصفر على ImageNet دون الحاجة إلى التدريب المسبق على نطاق واسع أو التوسيع القوي للبيانات. يمكن الوصول إلى نقاط الحفظ (model checkpoints) عبر الرابط: \url{https://github.com/google-research/vision_transformer}.